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内 容 提 要 

本 书 是 计算 机 视觉 编程 的 权威 实践 指责， 依赖 Python 语言 讲解 了 基础 理论 与 算法 ， 并 通过 
大 量 示 例 细致 分 析 了 对 象 识别 、 基 于 内 容 的 图 像 搜 索 、 光 学 字符 识别 、 光 流 法 、 跟 踪 、 三 维 重建 、 
立体 成 像 、 增 强 现实 、 姿 态 佑 计 、 全 景 创 建 、 图 像 分 割 、 降 噪 、 图 像 分 组 等 技术 。 另 外 ， 书 中 
附 市 的 练习 还 能 让 读者 巩固 并 学 会 应 用 编程 知识 。 

本 书 适合 的 读者 是 : 有 一 定编 程 与 数学 基础 ， 想 要 了 解 计 算 机 视 党 的 基本 理论 与 算法 的 学 
生 ， 以 及 计算 机 科学 、 信 号 处 理 、 物 理学 、 应 用 数学 和 统计 学 、 神 经 生理 学 、 认 知 科学 等 领域 
的 研究 人 员 和 从 业者 。 




















¢ 车 [ 美 ] Jan Erik Solem 
译 RM w H 
责任 编辑 李 松 峰 毛 倩 傅 
执行 编辑 杨 H 
责任 印 制 ” 焦 志 炜 
儿 人 民 邮 电 出 版 社 出 版 发 行 。” ”北京 市 丰台 区 成 寿 寺 路 11 号 
邮编 ”100164 电子 邮件 ”315@ptpress.com.cn 
网 址 http:/www.ptpress.com.cn 





北京 印刷 
@ 开本 : 800x1000 1/16 
EN: 17.75 
字数 ，338 千 字 2014 年 7 月 第 1 版 
ENR: 6 901 -7 500% 2016 年 6 月 北京 第 6 次 印刷 


著作 权 合 同 登 记号 ”图 字 : 01-2014-1134 号 
定价 : 69.00 元 
读者 服务 热线 : (010)51095186 转 600” 印 装 质量 热线 : (010)81055316 
反 盗 版 热线 : (010)81055315 
“ 告 经 营 许 可 证 : 京东 工商 广 字 第 8052 号 





nA FE BA 


© 2012 by O’Reilly Media, Inc. 


Simplified Chinese Edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom 
Press, 2014. Authorized translation of the English edition, 2014 O’Reilly Media, Inc., the 


owner of all rights to publish and sell the same. 


All rights reserved including the rights of reproduction in whole or in part in any form. 





Fe JAK EY O’Reilly Media, Inc. 出 版 2012。 


简体 中 文 版 由 人 民 邮 电 出 版 社 出 版 ，2014。 英 文 原版 的 翻译 得 到 O?Reilly Media, Inc. 
的 授权 。 此 简体 中 文 版 的 出 版 和 销售 得 到 出 版 权 和 销售 权 的 所 有 者 一 一 O’Reilly 
Media, Inc. 的 许可 。 


版 权 所 有 ， 未 得 书面 许可 ， 本 书 的 任何 部 分 和 全 部 不 得 以 任何 形式 重 制 。 





O'Reilly Media, Inc. 介 绍 


O’Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方式 传播 创新 知识 。 
H 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 
着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社 
会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 
昌 导 、 创 造 和 发 扬 光 大 。 


O’Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 (GNN) ; 组 
织 了 影响 深远 的 开放 源 代 码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ; S T Make 杂志 ， 
从 而 成 为 DIY 革命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。 
O’Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 
新 产业 的 革命 性 思想 。 作 为 技术 人 士 获 取信 息 的 选择 ，O’Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 服务 还 是 面授 课程 ， 每 一 
项 OReilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 汕 发 创新 的 力量 。 














业界 评论 
“O’Reilly Radar AA Fe AR” 
一 一 Wired 
“O'Reilly 凭借 一 系列 ( 真希 望 当初 我 也 想到 了 +) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 
—Business 2.0 
“O’Reilly Conference 2 Z fk K HES PANA 89 26 HY HIE” 
—CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 有 前途、 需要 学 习 的 主题 。 
一 一 Irish Times 
“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 了 眼 于 最 长 远 、 最 广阔 的 视野 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 遇 到 贫 路 口 ， 走 小 路 (A) 回顾 过 去 
Tim 似乎 每 一 次 都 选择 了 小 路 ， 而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 


—Linux Journal 





推荐 序 和 XI 
前 A 和 XIII 
第 1 章 基本 的 图 像 操 作 和 处 理 ed E E E E 1 
1.1 PIL: Python PR ARATE EELS JE 站 1 
1.1.1 转换 图 像 格 式 oeeeeeeereererereeereeeeeereresreesreeseenneennreesrernrersrensernsrrrsrensreeseeeserssreesreereeeeeeeeeeees 2 

1.1.2 创建 缩 略图 3 

HS ee rg cab Sa E E ade eeepc 3 

而 村 3 

Lo a li E E 4 

| 2 o Sen 2S ase aac edca eaa feeds Meese dead ted atte ae catalase diel 4 

2 A Ae aes eects teenie eaten ate eMaraceeactoereaietieane 6 

1.2.3 交互 式 标注 7 

1 .3 NUMPY ee 8 
1.3.1 图 像 数组 表示 EE EEOOOSOSEOOOOOEOOOOOSOOOOOOSOOOOOOOOOOOOSEOOOOESS g 

1.3.2 灰 度 变换 9 

1.3.3 图像 缩 旗 eee 11 

1.3.4 直方 图 均衡 化 eeerrrerrrerrrrrrrerrresrreerrenrreerreereneerenereenrenrrennnenerennreeerennrenereeerenereneeeeeneeenenet 11 

1.3.5 图 像 平 掏 eeeeeererrereerereeesrseeereerrenerenrrennrennrnnnnnnnnennrenerennrennrenerenenenerennrennneeeeenereneeeneeeeeeennt 13 

1.3.6 图像 的 主 成 分 分 析 ( PCA ee 14 

1.3.7 使 用 pickle 模块 16 

1.4 SCAPY ee 17 
1.4.1 ”图像 模糊 18 

1.4.2 BRP Ak ccc 19 

1.4.3 ”形态 学 对象 计数 D9 


V 


1.4.4 一 些 有 用 的 SciPy 模块 Dd de Se Pes aAweR od cond R R EER Sn TTS 23 





1.$ 高 级 示例 : BYRE SSS SEEOOSEOOOSOOOSEOOOSEOOOOOOOOOOOOOSOOOOOOSOOOOSSS IA 
ADS 28 
代码 示例 约 宪 0 29 
第 2 童 局 部 图 像 描述 子 和 Re yi 
2.1 Harris 角 点 检测 器  eeeeeeeereeeereeerrrseeereeeeseeerreeereseeerererneeerneeernsrernererneenneeeneseernteereeeeneeereeseeneee 31 
22. SIFT (尺度 不 变 特 征 蛮 括 7 39 
2.2.1 ”兴趣 点 39 

DD eA eee, 39 

2.2.3 ”检测 兴趣 点 40 

DA dd dn a 43 

2.3 匹配 地 理 标 记 图 俐 站 47 
2.3.1 A Panoramio 下 载 地 理 标 记 图 像 veeeeeeeeceeeeeeeeeeeeeeeeeeeeeeeseetsssseeeeeeeeeeeeeeeseeesseeeeeeeeeeeeees 47 

2.3.2 使 用 局 部 描述 子 匹 配 OES OOOOOOEESSOOOOOOOOOOOEOOOOOOOOOOOSSOOOOOONENS 50 

7 PFA IE FE AG E 52 

AmS OOOO OOOOOOOEEOOSOOOOOOOOOOOSOOOOOOOOOOSSOOOOOOOOOOOSSSOOOOOOOOEOOSSSOOOOOOOOSSSESOOOOOOOOSESSOOOOOOOOSESSSOOOS 54 
第 3 = 图 像 到 图 像 的 映射 eT cin gk th DA KAA OAPI CR co TE I AE ETA ep But AATE 57 
3.1 REPES e ee CESSES OSESSOOOEOOOSSSOOSEEOOOOOOOOOSOOOSOOOOOOOOOOSOOOOOOOOOOOOOOOOSOOOOOOSOOOOOOOOOSOOOOSESS 57 
3.1.1 直接 线性 变换 算法 ee S9 

3.1.2 仿 射 变换 60 

3.2 BHRFHPH cee eC OOSEOSOOOOSOOOOOOOOOOOSOROOOSOOOOOOOOOOOOOSOOOOOSOOOOOOOOOOOOOSOSOOSOOSS 61 
3.2.1 图 像 中 的 图 像 63 

3.2.2 分 段 仿 射 扭 有 曲 eee eeeeeeee eee eeee scene eee eeee cece eee eeee eee e eee e eee eee e tena eee E eee eae ae eeEE EEE EEEG 67 

3.2.3 ”图 像 配 准 ee 70 

3.3 ”创建 全 景 贺 站 76 
NA 了 了 

3.3.2 Jahe hg É MEKE pE P eeeeeeeereeeeeeeereeeereseerseresnererneeenneeerneeereeeenneenneeerneeereeeeneeereneeennee 78 

3.3.3 PHEN ccc 81 

ADS 84 
第 4 章 照相 机 模型 与 增强 现实 和 g5 
4.1 针 孔 照相 机 模 弄 eeeeeeereeeereeeeeeerssseeererrereesreersenrererereereesreerenrerresreeeneseeetrereereseeeeresneerereeeenesseeereneent 85 
4.1.1 照相 机 甜 阵 OOOOOOEEOOOOOOOOSOOOOOOOOOOOOOOOOOOROOOOOOOOOS 86 

4.1.2 ”三维 点 的 投影 ccc 87 

4.1.3 JAPIE PERAJA ffp 和 g9 

4.1.4 计算 照相 机 中 心 eeeerrerrerererererererererererererererererererererererenerenerenerenetenerenetererenerererenereneeens 90 

4.2 10 = 001 9,19 cae OO SESOOOOSESOOOOOOEEOOOOOOORSOOOOOOOOCOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOESS 9] 





VI 


目录 








直人 贡生 93 
4.4 增强 现 祷 OOOO OOOOOOESSOOOOOOOOOOOOESOOOOOOOOOOSSOOOOOOOOOOOOSOOOOOOOOOESOSSS 97 
4.4.1 PyGame 和 PyOpenGL ee 97 

4.4.2 ”从 照相 机 和 矩阵 到 OpenGL 格式 和 98 

4.4.3 在 图 俐 中 放置 虚拟 物体 和 100 

4.4.4 综合 焦 有 102 

4.4.5 ”和 载 入 模型 104 

ADS 106 
第 5 章 多 视图 几何 107 
5.1 处 极 几何 有 107 
5.1.1 一 个 简单 的 数据 焦 Ne 109 

5.12 用 Matplotlib 绘制 三 维 数据 T 111 

5.1.3 计算 尺 ， 人 和信 上 牙 法 和 112 

$.1.4 外 极点 和 外 极 线 OSS 113 

son Te 116 
52.1 三 角 剖 分 116 

5.2.2 ey A HEE Th FL EAB USB IE T 118 

5.2.3 ey FR BRB RT FL RG EIU JE PN 120 

MEA NAE E 122 
5.3.1 稳健 估计 基础 矩阵 123 

OE a e a ed E E 125 

53.3 ”多 视图 的 扩展 示例 Ne 129 

5.4 VAI NE E 130 
绕 加 135 
第 6 章 E EE EE 137 
6.1 K-means RŽ eereererrreerrrrrrreerrererrrsertrererreeereetesserteeerresettererrereteetesesteeerereeeeeeteeeeereeeeneeseeeeeeenet 137 
6.1.1 Scipy 聚 类 包 ESOS OOOOOOOOOOOOOROOOOOOOOOOOOOOOOOOOOOOOOOOOOOOSOSOOCOOOOOOOOOOOOOOOOEES 138 

6.1.2 E E ccc ecco 139 

6.1.3 在 主 成 分 上 可 视 化 图 像 和 140 

6.1.4 AR SE EEOOOOOSOOOOOOOOOOOOOOOEOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOEOS 142 

6.2 E e 144 
6.3” 谱 聚 类 en 152 
绕 加 157 
第 7 章 Go ESSERE 159 
Tl EN eee ee 159 
7.2 视觉 单词 和 160 





TA AVR | a putea E grease E E puelone sum emeu a tue E E T ot onmemetesancueatantasbanorsione prosbass 164 








7.3.1 建立 数据 库 SE OSEEOOOSEEOOOOOSOSSSOOOOSOOSSOOOOOOOOOOOOOOOOSOOOOOOOROSS 164 

7.3.2 ”添加 图 像 和 165 
a E E E T E E T E 167 
7.41 AARE REPAR RNE oeeerrerrerrrerrerreererrrerrereesrerrsereeresreeereereerreetereesreereeneeeeeeeeenees 168 

7.42 ”用 一 幅 图 像 进 行 查询 169 

7.4.3 ”确定 对 比 基 准 并 绘制 结果 ee 171 

7.5 使 用 几何 特性 对 结果 排序 OSS OOESOOEOOOSSOOOSESOOOOEOOOOSEOOOESS 172 
7.6 ”建立 演示 程序 及 Web 应 用 RN 176 
7.6.1 用 CherryPy 创建 Web 应 用 和 Ne 176 

7.6.2 Ea a V 176 

绕 加 179 
第 8 章 oS Sn e 181 
8.1 KERENDE (KNN) RRR SESOOSESOOOSSOOOOEOOOSOSOOOOOOOOOROOOSOSOOOOSOOOOSSOOSOSOOOSOOOOOOOOOSESOSS 181 
8.1.1 一 个 简单 的 二 维 示 例 ee 182 

8.1.2 ”用 稠密 SIFT 4E A KRG AE coccsteeeeeeeeeeeeeeeeeeeteeeeeeeeeeeneeeeeeeneeesseeeeeeeeenseeeeeeeeeeeaeeeeees 185 

8.1.3 图像 分 类 手势 识 别 Ne 187 

ORR AGG gil oe ce Sere ee ee ee er eee ee ee ee re 190 
8.3 XPEL ee OSS OOSEOOOSOROOOOSOSOOOOSOOOOSOSOOOOOOOOOOSOOOOOOOOSEOOSOOSS 195 
8.3.1 使 用 LibSVM OEEOO CORO COOOCOOOOOOOOOOOOOOOOOO OOOO OOOOOSCOOOOSOOOOOOOOOOOOSSIONS 196 

8.3.2 ”再 论 手 热 识 别 Ne 198 

8.4 光学 字符 识别 OEOOOSEOOOOEEOO OOOO OSOSOOOOOOSOOO OOOO OOOOOOOOOOOOOOOOOSEOOOOSSS 199 
让 200 

8.4.2 ”选取 特征 OOOO OOOOOOOOOSOOOOOOOOOOOOOSSOOOOOOOOOOSSOOOOOOOOOOOSSSOOOOOOOOOREOSS 200 

8.4.3 ”多 类 支持 向 量 机 PN 201 

8.4.4 ”提取 单元 格 并 识别 字符 202 

8.4.5 212) SE OCOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOSS 205 

ADS 206 
ERE Eo =| RRR SSE 209 
9.1 [Rel (Graph Cut) ee 209 
9.1.1 从 图 像 创建 图 Ne 211 

9.1.2 用户 交 互 式 分 央 和 216 

D9. HI E E 218 
9.3 ” 变 分 法 224 
ADS 226 
第 10 Æ ”OpenGV 097 
10.1 OpenCV 的 Python 接口 DOF 





Vil | 目录 


10.2 


10.3 


10.4 


10.5 


练习 


附录 A 
A.l 


A.2 
A.3 
A.4 
A.5 


A.6 
A.7 
A.8 
A.9 
A.10 
A.11 
A.12 
A.13 


附录 B 
B.1 


OpenCV 基础 知识 EN dd eo ee ee 放下 汪 228 


10.2.1 读 取 和 写 入 图 俐 站 228 
10.2.2 颜色 空间 errerreerereereeeeresereesresseeesreesreesrersreesressressrensressreeseesseessrsesressressresseeeseessreeseeeees 228 
10.2.3 SEG AR FER E 229 
处 理 视 频 eeeeeeeeeeeeeeeererrrrreeeeeeeereseeeteerreeererrerreeereeeereesrteerrrrereeeeeenesstteerrereeeeeeetesesteeereeerereeeeeeeeees 339 
[OS -Te a a T AA 432 
10.3.2 ”将 视频 读 取 到 NumPy 数组 中 234 
跟 跨 nn 924 
10.4.1 风流 235 
10.4.2 Lucas-Kanade 算法 397 
更 多 示例 本 943 
10.5.1 图像 修复 243 
10.5.2 PMAR X HITE) 和 244 
10.5.3 ”利用 F k EAN) A E E ET 245 
E EE E E AE A S S E E E E E E E T S 246 
安装 软件 包 人 247 
NumPy 和 SciPy ee ee E ee ed ee ed ed E RETE 247 
Be TEN, a ed tere a atc std ete ce eet 247 
PCD MacOS N i a ee ae a A DAF 
Wl Ide dd tn pe O 248 
Mat plot libeee 248 
让 248 
EN E T E E E TEE E T T E IEEE E, 249 
OpenCV 249 
A.5.1 Windows 和 Uni 249 
AST Mae OS Na EE RE en ea error N E cere A ere eer 249 
ASA: 1 ET 250 
YIT EY TT VT E Ea i SEEE E G Te 250 
PyGame ee 250 
PyOpenGLeeeee 250 
Py doteee 251 
Python-graph ee 251 
Şimplejson ee 252 
PySQLite ee 252 
Cherry Py 252 
图 像 集 0 253 
下 253 

















B Panoramio eana eee ce rr ee ee ce eer eee re 254 
B.3 牛津 大 学 视觉 | L 何 组 Mada dd es a a ed ed de ee a 255 
B.4 pe Oa ee ag | 00 cd a OSES 255 
B.S 其 他 eRROER ER OSEOSSSOOOSEROOOOSSSOOOSOSOOOOORSOOOOOOOOOOOOOOOOOOOOOOOSSOOOOOOOOOOOOOOEOOSSOOOOOSOOOOOOOOSEOOOOOSOSOOSSEOSS 256 
B.5.1 Prague Texture Segmentation Datagenerator 与 基准 人 Sais E Na a on eee ee sects 256 

B.5.2 ”微软 研究 院 Grab Cut BYE fE eeeeeeeeerrrreerrerrrerererrrererereetrereereterrrreeeteeereeereeeereeerereeen: 256 

B53. Cihtech 人 | 256 

B.5.4 静态 手势 数据 库 生生 256 

B.5.5 Middlebury Stereo 数据 集 下 256 

附录 C 图 片 来 源 ERE APAE OOO a O ea it Me 257 
C.1 来 自 Flickr 的 图 俐 0 257 
C3 其 他 图 像 sis bees De EE EEEE E a SHEA ad ee 258 
C3 tH RI a acts ea ase eatery E data tial dares ia te N ud cle se Aire oe A Aantal ra hates ciate Sed arian deena 258 
参考 文献 a ee de a dd de E AE acaa ta eatsy 259 
索引 和 263 





目录 





推荐 序 


计算 机 视觉 古 一 门 实践 性 很 剖 的 课程 ， 虽然 已 经 有 了 不 少 教科 书 ， 但 大 多 数 都 只 重 
视 其 中 的 理论 和 算法 ， 很 少 有 实践 指导 书 。 因 而 对 于 学 习 者 而 言 ， 如 来 希望 在 实践 
中 学 习 ， 往 往 需要 编写 大 量 的 程序 。 在 这 方面 ， 本 书 的 出 版 可 以 算是 一 个 有 益 的 补 
充 ， 相 信 本 书 将 成 为 计算 机 视觉 学 习 者 的 一 个 重要 参考 。 


作为 一 本 面 癌 计算 机 视觉 编程 的 书 ， 本 书 涉及 了 这 一 学 科 中 相对 成 熟 并 且 被 以 往 实 
践 验证 有 效 的 部 分 典型 算法 ， 因 而 上 共有 很 好 的 实用 性 。 例 如 第 2 章 描 述 子 部 分 选择 
了 Harris 角 点 检测 各 和 SIFT 描述 子 及 其 实现 加 以 介绍 ; 第 3 章 则 以 全 景 图 的 创建 
为 例 ， 给 出 了 RANSAC 的 实现 ; 第 9 章 图 像 分 割 中 讨论 了 Graph Cut 的 实现 等 。 这 
些 方法 大 多 数 具 有 很 好 的 通用 性 ， 因 而 为 读者 提供 了 一 种 实现 疙 例 。 


本 书 的 另 一 个 特 氮 和 是 对 介绍 的 单一 方法 ， 通 过 综合 运用 提升 学 习 者 灵活 应 用 这 些 方 
法 的 能 力 。 例 如 第 4 草 给 出 的 增强 现实 的 例子 ， 以 及 第 8 章 给 出 的 图 像 校正 的 例子 。 
这 些 例子 能 够 帮助 进一步 捉 升 学 习 者 对 前 述 方法 的 感性 认识 。 


与 早期 计算 机 视觉 领域 多 数 程序 都 是 由 C/C++ 写 就 的 情形 不 同 。 随 着 计算 机 硬件 速 
度 越 来 越 快 ， 了 研究 者 在 考虑 选择 实现 算法 语言 的 时 候 会 更 多 地 芳 虑 编写 代码 的 效率 
和 多 用 性 ， 而 不 征 像 早年 那样 把 算法 的 执行 效率 放 在 首位 。 这 直接 导致 近年 来 越 来 
越 多 的 研究 者 选择 Python 来 实现 算法 。 与 此 同时 ，Python 的 开放 性 使 不 同 领域 的 
研究 者 能 够 有 机 会 在 Python 中 加 入 他 们 需要 的 特性 ， 其 至 可 以 纳入 Python 的 标准 
库 ， 这 也 大 大 吸引 了 众多 研究 者 对 Python 的 参与 。 


本 书 的 第 三 个 特点 是 提供 了 与 OpenCv 接口 的 介绍 。 这 为 利用 OpenCV 中 的 资源 提 
供 了 方便 的 途径 。 











XI 


今天 在 计算 机 视觉 领域 ， 越 来 越 多 的 研究 者 使 用 Python 开展 研究 。 本 书 中 文 版 的 出 
版 一 方面 能 够 或 励 更 多 的 研究 者 采用 这 一 语言 ， 另 一 方面 则 为 Python 的 学 习 者 提供 
了 一 种 尝试 不 同 领域 算法 的 机 会 。 
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ER, KRAMADE, ERRAI SE Da Ah 30 2 ERRA BIZ S 
几乎 对 于 任意 可 能 的 查询 图 像 ， 搜 索引 擎 都 会 给 用 户 返 回 检索 的 图 像 。 实 际 上 ， 几 
乎 所 有 手机 和 计算 机 都 有 内 置 的 摄像 类， 所 以 在 人 们 的 设备 中 ， 有 几 G 的 图 像 和 视 
频 是 一 件 很 寻 第 鸭 事 。 

计算 机 视 沉 就 征用 计算 机 编程 ， 并 设计 算法 来 理解 在 这 些 图 像 中 有 什么 。 计 算 机 视 
RHA DAA Beas. Blas At. Eee Al air. HA er BS 


本 书 旨 在 为 计算 机 视觉 实战 提供 一 个 简单 的 切入 点 ， 让 学 生 、 研 究 者 和 爱好 者 充分 

理解 其 基础 理论 和 算法 。 本 书 中 的 编程 语言 是 Python，Python 自 带 了 很 多 可 以 免费 

获取 的 强大 而 便捷 的 图 像 处 理 、 数 学 计算 和 数据 挖掘 模 块 ， 可 以 免费 获取 。 

写作 本 书 的 时 候 ， 我 亲人 循 了 以 下 原则 。 

。 豆 励 探究 式 学 习 ， 让 读者 在 周 读 本 书 的 上 时候， 在 计算 机 上 跟着 书 中 示例 进行 练习 。 

。 推广 和 使 用 人 免费 有 是 开源 的 软件 ， 设 立 较 低 的 学 习 [ 门 槛 。 显 然 ， 我 们 选择 T Python, 

。 保持 内 容 完 整 性 和 独立 性 。 本 书 没 有 介绍 计算 机 视觉 的 全 部 内 容 ， 而 是 完整 呈现 并 
解释 所 有 代码 。 你 应 该 能 够 重 现 这 些 示 例 ， 并 可 以 直接 在 它们 之 上 构建 其 他 应 用 。 

。 内 容 妃 求 广 泛 而 韭 详细 ， 且 相对 于 理论 更 注重 辟 舞 和 油 励 。 


总 之 ， 如 采 你 对 计算 机 视觉 编程 感 兴趣 ， 和 希望 它 能 给 你 珊 来 司 发 。 


先决 条 件 和 概述 


本 书 主 要 针对 各 种 应 用 和 问题 探讨 理论 及 算法 ， 下 面 简 单 概 括 一 下 。 
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读者 须知 

。 基本 的 编程 经 验 。 你 需要 会 使 用 编辑 器 ， 能 够 运行 脚本 ， 知 道 如 何 构建 代码 以 及 基 
本 数据 类 型 。 就 悉 Python， 或 诸如 Ruby、Matlab 等 其 他 脚本 语言 ， 这 也 会 对 你 理 
解 本 书 有 所 帮助 。 

© 数学 基础 。 如 果 你 知道 矩阵 、 癌 量 、 算 阵 乘法 ,标准 数学 函数 以 及 导数 和 梯度 等 概念 ， 
这 对 于 充分 利用 其 中 示例 非常 有 益 。 对 于 一 些 较 高 级 的 数学 例子 ,你 可 以 轻松 跳 过 。 


本 书 内 容 

。 用 Python 对 图 像 进行 实战 编程 。 

。 现实 世界 中 各 种 应 用 背后 的 计算 机 视觉 技术 。 

。 一 些 基本 算法 ， 以 及 如 何 实现 并 应 用 这 些 算法 。 

本 书 中 的 代码 示例 会 向 你 展示 物体 识别 、 基 于 内 容 的 图 像 检 索 、 图 像 搜 索 、 光 学 字 
符 识 别 、 光 流 、 跟 踪 、 三 维 重 建 、 立 体 成 像 、 增 强 现 实 、 姿 态 估 计 、 全 景 创建 、 图 
(Ral, PEER AURA SA 











1 “AE AS AY ABBR VE PD BE” Mia ReH A fA A AS Te AS = BA 
Python 模块 ， 同 时 字 关 了 很 多 贯 罕 全 书 的 基础 示例 。 
第 2 草 局 部 图 像 摘 述 子 ” 讲 解 检 测 图 像 兴 趣 点 的 方法 ， 以 及 怎样 使 用 它们 在 图 像 
间 寻 找 相 应 扣 和 区 域 。 
第 3 草 图 像 到 图 像 的 映射 ”描述 图 像 间 基本 的 变换 及 其 计算 方法 。 涵 瘟 从 图 像 扭 
曲 到 创建 全 景 图 像 的 示例 。 


第 4 章 “照相 机 模型 与 增强 现实 ”介绍 如 何 对 照相 机 建 模 、 生 成 从 三 维 空间 到 图 像 
特征 的 图 像 投 影 ， 并 佑 计 照 相机 视点 。 


第 5S 草 “ 多 视图 几何 ”讲解 如 何 对 具有 相同 场景 、 多 视图 几何 基本 面 的 图 像 进行 处 
理 ， 以 及 怎样 从 图 像 计算 三 维 重建 。 

第 6 草图 像 聚 类 ”介绍 一 些 聚 类 方法 ， 并 展示 如 何 基于 相似 性 或 内 容 对 图 像 进行 
分 组 和 组 织 。 


第 7 草 “图像 搜 索 ” 展 示 如 何 建立 有 效 的 图 像 检 索 技 术 ， 以 便 能 够 存储 图 像 的 表示 ， 
并 基于 图 像 的 视 沉 内 容 搜索 图 像 。 








XV | 前 言 


第 8 章 图 像 内 容 分 类 ” 摘 述 了 图 像 内 容 分 类 算法 ， 以 及 怎样 使 用 它们 识别 图 像 中 
的 物体 。 


EOE “图像 分 割 ” 介 绍 了 通过 聚 类 、 用 户 交互 或 图 像 模型 ， 将 图 像 分 割 成 有 意义 
区 域 的 不 同 技术 。 


第 10 章 “OpenCV” 展 示 怎 样 使 用 常用 的 OpenCV 计算 机 视觉 库 Python 接口 ， 以 及 
如 何 处 理 视频 及 摄像 头 的 输入 。 


本 书 结尾 有 参 芳 文献 。 文 献 条 目的 ?5 用 用 方 括号 表示 ， 如 [20]。 


计算 机 视 完 人 简介 

计算 机 视觉 是 一 门 对 图 像 中 信息 进行 自动 提取 的 学 科 。 信 息 的 内 容 相当 广泛 ， 包 括 
三 维 模 型 、 照 相机 位 置 、 目 标 检测 与 识别 ， 以 及 图 像 内 容 的 分 组 与 搜索 等 。 本 书 中 ， 
我 们 使 用 广义 的 计算 机 视觉 概念 ， 包 括 图 像 扭曲 、 降 噪 和 增强 现实 等 。 


计算 机 视觉 有 时 试图 模拟 人 类 视觉 ， 有 时 使 用 数据 和 统计 方法 ， 而 有 时 几何 十 解 决 问 
题 的 关键 。 在 本 书 中 ， 我 们 试图 对 此 进行 全 面 介 绍 。 


实用 计算 机 视觉 混合 了 编程 、 建 模 和 数学 技巧 ， 有 时 很 难 和 掌握 。 我 本 着 “力求 简单 ， 
又 不 影响 理解 ”的 精神 ， 有 意 用 最 少 的 理论 来 展示 这 些 内 容 。 书 中 对 于 数学 知识 的 介 
绍 是 为 了 帮助 读者 理解 算法 ， 有 些 革 〈 主 要 是 第 4 草 和 第 5E) 无 法 避免 地 涉及 很 多 
数学 理论 。 只 要 读者 愿 夸 ， 可 以 跳 过 这 些 数学 理论 ， 直 接 使 用 示例 代码 。 





Python 和 NumPy 


Python 是 一 门 编程 语言 ， 其 使 用 贯 军 了 全 书 的 示例 代码 。Python 是 一 种 简洁 明了 
的 语言 ， 对 于 输入 / 输出、 数字、 图 像 及 绘图 部 具有 民 好 的 文 持 。 这 门 语言 的 
一 些 特 性 需要 我 们 逐 贿 适应， 比如 缩 进 和 紧凑 语法 。 要 运行 代码 示例 ， 你 需要 安 
X Python 2.6 或 之 后 的 版 本 ， 因 为 只 有 这 些 版 本 才 提 供 本 书 中 用 到 的 很 多 工具 包 。 
Python 3.x 版 本 与 2.x 版 本 有 很 多 语法 差异 ， 并 且 不 兼容 2x 版 本 ， 也 不 兼容 我 们 所 
mall) LA. 





熟悉 一 些 基 本 Python 操作 会 更 容易 理解 这 些 内 容 。 对 于 Python WFE, FREI 
一 下 Mark Lutz 的 书 Learning Python[20] FU http://www.python.org/ 上 的 在 线 文档 。 


在 进行 计算 机 视觉 编程 的 时 候 ， 我 们 需要 在 癌 量 、 秆 阵 的 表示 上 进行 操作 ， 这 可 











TE 1: 这 些 例子 生成 新 的 图 像 ， 并 且 比 实际 地 从 图 像 中 提取 信息 需要 更 多 的 图 像 处 理 。 








以 通过 Python 的 NumPy 模块 处 理 ， 在 该 模块 中 ， 疝 量 和 和 矩阵 是 用 array 类 型 表示 
的 。 对 于 图 像 ， 我 们 也 将 采用 这 种 类 型 的 表示 。Travis Oliphant 的 免费 电子 书 Guide 
to NumPy[24] 是 一 本 不 错 的 NumPy 24 FH}; http://numpy.scipy.org/ 上 的 文档 对 
于 刚 接 触 NumPy 的 旋 者 来 说 是 一 个 很 好 的 起 点 。 对 于 结 采 的 可 视 化 ， 我 们 会 用 到 
Matplotlib 模块 ， 而 对 于 更 高 级 的 数学 ， 我 们 会 用 到 Scipy 模块 。 这 些 束 是 你 会 用 
到 的 核心 模块 ， 详 见 第 1 章 。 

除了 这 些 核 心 模块 ， 对 于 某 些 特殊 目的 ， 比 如 读 取 JSON 或 XML、 载 入 并 保存 数 
据 、 生 成 图 、 图 形 编程 、Web ifn, DRaa, FHA A BRS HE fh eR, 
这 些 模块 只 有 在 特殊 的 应 用 和 演示 中 才 需 要 ， 如 果 你 对 于 某 种 应 用 不 感 兴趣 ， 可 以 
Det 

这 里 有 必要 提 一 下 IPython， 它 古 一 个 交互 式 Python 壳 ， 使 调试 和 实验 变 得 更 简单 。 
对 应 文档 及 下 载 地 址 见 http:Wipython.org/。 


排版 约定 
代码 如 下 : 

# 一 些 点 

x = [100,100, 400,400] 


y = [200,500, 200,500] 


# 绘制 这 些 点 
plot(x,y) 


本 书 中 的 字体 约定 如 下 。 
。 楷体 
用 于 定义 。 
。 等 宽 字 体 (Constant width) 
用 于 函数 、Python 模块 及 代码 示例 ， 也 用 于 控制 台 打 印 输出 。 
数学 公式 为 内 联 式 (如 f(x) = wx+D)， 或 者 单独 居中 : 
f(x) = 2 Wiki +b 





PAA Ha Be ZS PY Be BATA HASRET tS 


在 介绍 数学 知识 的 部 分 ， 标 量 使 用 小 写字 母 (s, r, 4, 9…)， 和 矩阵 (包括 图 像 数 组 7) 
使 用 大 写 加 粗 (4, V, A), eID SA (£ c,…)， 二 维 (图 像 ) 和 三 维 中 的 
尽 分 别 用 x=[x, y] 和 X[X, Y, Z] 表示 。 





使 用 代码 示例 

本 书 旨 在 帮助 你 完成 工作 。 通 前 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 的 代码 。 你 不 必 
联系 我 们 请 求 许可 ， 除 非 你 要 复制 本 书 的 大 量 人 代码。 例如， 用 本 书 的 儿 段 代码 编写 
程序 不 需要 获得 许可 ， 售卖 或 再 分 发 O'Reilly 的 图 书 示例 光盘 需要 获得 许可 ， 引 用 
本 书 和 示例 代码 回答 问题 不 需要 获得 许可 ， 将 本 书 中 的 大 量 示例 代码 纳入 产品 文档 
中 需要 获得 许可 。 


我 们 对 你 在 使 用 时 声明 引用 信息 表示 感谢 ,但 不 强制 要 求 。5| 用 信息 通常 包括 标题 、 
VE. Ehk RIAD ISBN, 例如 “Programmineg Computer Vision with Python by Jan 
Erik Solem (O’Reilly). Copyright © 2012 Jan Erik Solem, 978-1-449-31654-9.” 
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permissions @ oreilly.com, 


Safari® Books Online 


Safari Books Online (www.safaribooksonline.com) 是 应 
Safa ri 需 而 变 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 
Books Online 世界 顶级 技术 和 商务 作家 的 专业 作品 。 


Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 人 
士 开 展 调 研 、 解 决 问 题 、 学 习 和 认证 培训 的 第 一 手 资料 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 
的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O’Reilly Media, 
Prentice Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, 
Que, Peachpit Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, 
Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, 
Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology 以 及 其 他 
几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari Books 
Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 








1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 末 利 技术 咨询 (北京 ) 有 限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 
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本 音 讲 解 操作 和 处 理 图 像 的 基础 知识 ， 将 通过 大 量 示 例 介 绍 处 理 图 像 所 需 的 Python 
工具 包 ， 并 介绍 用 于 读 取 图 像 、 图 像 转 换 和 缩放 、 计 算 导 数 、 画 图 和 保存 结 末 等 的 
基本 工具 。 这 些 工 具 的 使 用 将 贯 罕 本 书 的 剩余 音 攻 。 


1.1 PIL: Python 图 像 处理 类 库 


PIL (Python Imaging Library， 图 像 处 理 类 库 ) 提供 了 通用 的 图 像 处 理 功能 ， 以 及 大 
量 有 用 的 基本 图 像 操 作 ， 比 如 图 像 缩放 、 裁 前 、 旋 转 、 颜 色 转 换 等 。PIL 是 免费 的 ， 
Fy UA http://www.pythonware.com/products/pil/ 下 载 。 


利用 PIL 中 的 函数 ， 我 们 可 以 从 大 多 数 图 像 格 式 的 文件 中 读 取 数据 ， 然 后 写 入 最 租 
见 的 图 像 格式 文件 中 。PIL 中 最 重要 的 模块 为 Image。 要 读 取 一 幅 图 像 ， 可 以 使 用 : 
from PIL import Image 
pil im = Image.open( ‘empire. jpg") 
上 述 代 码 的 返回 值 pil im 是 一 个 PIL 图 像 对 象 。 
图 像 的 颜色 转换 可 以 使 用 convert() 方法 来 实现 。 要 读 取 一 幅 图 像 ， 并 将 其 转换 成 
灰 度 图 像 ， 只 需要 加 上 convert('L')， 如 下 所 示 : 
pil im = Image.open('empire.jpg').convert('L') 


在 PIL 文档 中 有 一 些 例子 ， 参 见 http://www.pythonware.com/library/pil/handbook/ 
index.htm。 这 些 例子 有 的 输出 结 末 如 图 1-1 PAR. 














1-1; 用 PIL 处 理 图 像 的 例子 


1.1.1 转换 图 像 格式 
通过 save) 方法 ，PIL 可 以 将 图 像 保存 成 多 种 格式 的 文件 。 下 面 的 例子 从 文件 名 列 
K (filelist) 中 读 取 所 有 的 图 像 文 件 ， 并 转换 成 JPEG 格式 : 


from PIL import Image 
import os 


for intile in Tilelist: 
outfile = os.path.splitext(infile)[0] + ".jpg" 
if intitle l= outtile: 
try: 
Image.open(infile).save(outfile) 
except IOError: 
print "cannot convert", infile 


PIL AY open() 函数 用 于 创建 PIL 图 像 对 象 ，save() 方法 用 于 保存 图 像 到 具有 指定 文 
件 名 的 文件 。 除 了 后 级 变 为 “.jpg ”， 上 述 代码 的 新 文件 名 和 原文 件 名 相同 。PIL 是 
个 足够 智能 的 类 库 ， 可 以 根据 文件 扩展 名 来 判定 图 像 的 格式 。PIL 函数 会 进行 简单 
的 检查 ， 如 东 文 件 不 是 JPEG 格式 ， 会 目 动 将 其 转换 成 JPEG 格式 ， 如 采 转 换 失 败 ， 
它 会 在 控制 台 输 出 一 条 报告 失败 的 消 朋 。 


本 书 会 处 理 大 量 图 像 列 表 。 下 面 将 创建 一 个 包含 文件 夹 中 所 有 图 像 文件 的 文件 名 列 
表 。 首 先 新 建 一 个 文件 ， 命 名 为 imtools.py， 来 存储 一 些 经 常 使 用 的 图 像 操 作 ， 然 
后 将 下 面 的 函数 添加 进去 : 





import os 
def get_imlist(path): 








"0" 返回 目录 中 所 有 JPG 图 像 的 文件 名 列表 """ 


return [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 


现在 ， 回 到 PIL. 


1.1.2 ”创建 缩 略 图 


使 用 PIL 可 以 很 方便 地 创建 图 像 的 缩 略 图 。thumbnail() 方法 接受 一 个 元 组 参数 (该 
参数 指定 生成 缩 略 图 的 大 小 ) ， 然 后 将 图 像 转 换 成 符合 元 组 参数 指定 大 小 的 缩 略 图 。 
例如 ， 创 建 最 长 边 为 128 像素 的 缩 略 图 ， 可 以 使 用 下 列 命令 : 


pil im.thumbnail((128,128)) 


1.1.3 复制 和 粘贴 图 像 区 域 
使 用 crop) 方法 可 以 从 一 幅 图 像 中 裁剪 指定 区 域 : 


box = (100,100,400, 400) 
region = pil im.crop(box) 


该 区 域 使 用 四 元 组 来 指定 。 四 元 组 的 坐标 依次 是 (Fe, E, 4, FP). PIL 中 指定 


坐标 系 的 左上 角 坐 标 为 《0，0)。 我 们 可 以 旋转 上 面 代码 中 获取 的 区 域 ， 然 后 使 用 
paste() 方法 将 该 区 域 放 回 去 ， 具 体 实现 如 下 : 





region = region.transpose(Image.ROTATE 180) 
pil im.paste(region,box) 


1.1.4 调整 尺寸 和 旋转 
要 调整 一 幅 图 像 的 尺寸 ， 我 们 可 以 调用 resize) 方法 。 该 方法 的 参数 是 一 个 元 组 ， 
用 来 指定 新 图 像 的 大 小 : 


out = pil im.resize((128,128)) 
要 旋转 一 幅 图 像 ， 可 以 使 用 逆 时 针 方 式 表示 旋转 角度 ， 然 后 调用 rotate() 方法 : 
out = pil im.rotate(45) 


上 述 例 子 的 输出 结果 如 图 1-1 所 示 。 最 左 端 是 原始 图 像 ， 然 后 是 灰 度 图 人像、 粘贴 有 
旋转 后 裁 瘟 图 像 的 原始 图 像 ， 最 后 是 缩 略 图 。 
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1.2 Matplotlib 


我 们 处 理 数 学 运算 、 绘 制图 表 ， 或 者 在 图 像 上 绘制 点 、 直 线 和 曲线 时 ，Matplotlib 
是 个 很 好 的 类 库 ， 有 具有 上 比 PIL 更 强大 的 绘图 功能 。Matplotlib 可 以 绘制 出 高 质量 的 
图 表 ， 就 像 本 书 中 的 许多 插图 一 样 。Matplotlib 中 的 PyLab 接口 包含 很 多 方便 用 户 
创建 图 像 的 函数 。Matplotlib 是 开源 工具 ， 可 以 从 http://matplotlib.sourceforge.net/ 
免费 下 载 。 该 链接 中 包含 非常 详尽 的 使 用 说 明和 教程 。 下 面 的 例子 展示 了 本 书 中 需 
要 使 用 的 大 部 分 函数 。 


1.2.1 绘制 图 像 、 点 和 线 

尽管 Matplotlib 可 以 绘制 出 较 好 的 条 形 图 、 饼 状 图 、 散 点 图 等 ， 但 是 对 于 大 多 数 计 
算 机 视觉 应 用 来 说 ， 仅 仅 需 要 用 到 几 个 绘图 命令 。 最 重要 的 是 ， 我 们 想 用 点 和 线 来 
表示 一 些 事物 ， 比 如 兴趣 点 、 对 应 点 以 及 检测 出 的 物体 。 下 面 是 用 几 个 点 和 一 条 线 
绘制 图 像 的 例子 : 








from PIL import Image 
from pylab import * 


# 读 取 图 像 到 数组 中 


im = array(Image.open('empire.jpg' )) 
# 绘制 图 像 
imshow( im) 


# 一 些 点 
x = [100,100,400, 400] 
y = [200,500,200, 500] 


# 使 用 红色 星 状 标记 绘制 点 
BLOtECX yy T) 


# 绘制 连接 前 两 个 点 的 线 
plot(x[:2],y[:2]) 


E 添加 标题 ， 显 示 绘 制 的 图 像 

title('Plotting: "empire.jpg"') 

show( ) 
上 面 的 代码 首先 绘制 出 原始 图 像 ， 然 后 在 x 和 y 列表 中 给 定点 的 x 坐标 和 y 坐标 上 
绘制 出 红色 星 状 标记 点 ， 最 后 在 两 个 列表 表示 的 前 两 个 点 之 间 绘 制 一 条 线段 CBR 
认为 蓝 色 )。 该 例子 的 绘制 结果 如 图 1-2 所 示 。show() 命令 首先 打开 图 形 用 户 界面 
(GUI) ， 然 后 新 建 一 个 图 像 窗 口 。 该 图 形 用 户 界 面 会 循环 阻 断 脚本 ， 然 后 暂停 ， 直 
到 最 后 一 个 图 像 窗 口 关 闭 。 在 每 个 脚本 里 ， 你 只 能 调用 一 次 show() MA, m HM 
征 在 脚本 的 结尾 调 有 用。 注意， 在 PyLab 库 中 ， 我 们 约定 图 像 的 左上 角 为 坐标 原点 。 
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图 像 的 坐标 轴 古 一 个 很 有 用 的 调试 工具 ; 但 是 ， 如 琳 你 想 绘制 出 较 美观 的 图 像 ， 加 
上 下 列 命令 可 以 使 坐标 轴 不 显示 : 





axis( oTr] 


上 面 的 命令 将 绘制 出 如 图 1-2 右边 所 示 的 图 像 。 








Plotting: "empire.jpg" Plotting: "empire.jpg" 





—100 0 100 200 300 400 500 600 





1-2: Matplotlib 绘图 示例 . 带 有 坐标 轴 和 不 带 坐 标 轴 的 包含 点 和 一 条 线段 的 图 像 


在 绘 


图 时 ， 有 很 多 选项 可 以 控制 图 像 的 颜色 和 样式 。 最 有 用 的 一 些 短命 令 如 表 1-1, 


K 1-2 和 表 1-3 所 示 。 使 用 方法 见 下 面 的 例子 : 


表 1- 


plot(x,y) # 默认 为 监 色 实 线 
plot(x,y,'r*') ”# 红色 星 状 标记 
plot(x,y,'go-') # 带 有 圆圈 标记 的 绿 线 
plot(x,y,'ks:') # 带 有 正方 形 标记 的 黑色 点 线 





1: 用 pyLab 库 绘图 的 基本 颜色 格式 命令 


K < 


= 


Ee 
绿色 
红色 
青色 
TAR 
黄色 
黑色 
白色 
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表 1-2: 用 PyLab 库 绘图 的 基本 线 型 格式 信念 

线 型 
= 实 线 
虚线 
点 线 


表 1-3: 用 PyLab 库 绘图 的 基本 绘制 标记 格式 命令 


标记 
Mie 点 
con 圆圈 
Š 正方 形 
i 星 形 
十 加 号 
x 又 号 


1.2.2 ”图像 轮廓 和 直方 图 

下 面 来 看 两 个 特别 的 绘图 示例 : 图 像 的 轮廓 和 直方 图 。 绘 制图 像 的 轮廓 (或 者 其 他 
二 维 畏 数 的 等 轮廓 线 ) 在 工作 中 非 第 有 用 。 因 为 绘制 轮 廊 需要 对 每 个 坐标 [x, y] 的 
像素 值 施加 同一 个 六 值 ， 所 以 首先 需要 将 图 像 灰 度 化 : 


from PIL import Image 
from pylab import * 


# 读 取 图 像 到 数组 中 


im = array(Image.open('empire.jpg').convert('L')) 


# 新 建 一 个 图 像 
figure() 
# 不 使 用 颜色 信息 


gray() 

# 在 原点 的 左上 角 显 示 轮 廓 图 像 
contour(im, origin='image' ) 
axis('equal') 

axis('off') 


像 之 前 的 例子 一 样 ， 这 里 用 PIL 的 convert () 方法 将 图 像 转换 成 灰 度 图 像 。 


ee ee 分 布 情况 。 用 一 定数 目的 小 区 间 (bin) 来 
定 表征 像素 值 的 区 围 ， 每 个 小 区 间 会 得 到 落 入 该 小 区 同 表示 学 围 的 像素 数目 。 该 
GRIE) 图 像 的 直方 图 可 以 使 用 hist() 国 数 绘制 : 














figure() 
hist(im.flatten(),128) 
show() 








hist() 函数 的 第 二 个 参数 指定 小 区 则 的 数目 。 需 要 注意 的 是 ， 因 为 hist() 只 接受 一 
维 数组 作为 输入 ， 所 以 我 们 在 绘制 图 像 直方 图 之 前 ， 必 须 先 对 图 像 进行 压 平 处 理 。 
flatten() 方法 将 任意 数组 按照 行 优先 准则 转换 成 一 维 数组 。 图 1-3 为 等 轮廓 线 和 直 
方 图 图 像 。 
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1-3: 用 Matplotlib 绘制 图 像 等 轮廓 线 和 直方 图 


1.2.3 ”交互 式 标注 
有 时 用 户 需 要 和 革 些 应 用 交互 ， 例 如 在 一 幅 图 像 中 标记 一 些 点 ， 或 者 标注 一 些 训练 
数据 。PyLab 库 中 的 ginput() 国 数 就 可 以 实现 交互 式 标 注 。 下 面 是 一 个 简短 的 例子 : 


from PIL import Image 
from pylab import * 


im = array(Image.open('empire. jpg’ )) 
imshow(im) 

print ‘Please click 3 points’ 

x = ginput (3) 

DTANE: «you -Cliexed: x 

show() 


上 面 的 脚本 首先 绘制 一 幅 图 像 ， 然 后 等 待 用 户 在 绘图 窗口 的 图 像 区 域 点 击 三 次 。 程 
序 将 这 些 操 击 的 坐标 [x, y] ADR ARTE x 列表 里 。 
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1.3 Numpy 


NumPy (http://www.scipy.org/NumPy/) 是 非常 有 名 的 Python 科学 计算 工具 包 ， 甚 中 
包含 了 大 量 有 用 的 思想 ， 比 如 数组 对 象 (用 来 表示 向 量 、 和 矩阵 、 图 像 等 ) 以 及 线性 
代数 国 数 。Numpy 中 的 数组 对 象 几乎 贯穿 用 于 本 书 的 所 有 例子 中 数组 对 象 可 以 帮助 
你 实现 数组 中 重要 的 操作 ， 比 如 矩阵 乘积 、 转 置 、 解 方程 系统 、 回 量 乘 积 和 归 一 化 ， 
这 为 图 像 变 形 、 对 变化 进行 建 模 、 图 像 分 类 、 图 像 聚 类 每 提供 了 基础 。 





NumPy 可 以 从 http://www.scipy.org/Download 免费 下 载 ， 在 线 说 明文 档 (http://docs. 
scipy.org/doc/numpy/) 包含 了 你 可 能 遇 到 的 大 多 数 问 题 的 人 答案。 关于 NumPy 的 更 多 
内 容 ， 请 参考 开 产 书籍 [24]。 








1.3.1 ”图像 数 组 表示 

在 先前 的 例子 中 ， 当 载 入 图 像 时 ， 我 们 通过 调用 array) 方法 将 图 像 转 换 成 NumPy 的 
数组 对 象 ， 但 当时 并 没有 进行 详细 介绍 。NumpPy 中 的 数组 对 象 是 多 维 有 的 ， 可 以 用 来 
表示 加 量 、 和 矩阵 和 图 像 。 一 个 数组 对 象 很 像 一 个 列表 (或 者 是 列表 的 列表 )， 但 是 数 
组 中 所 有 的 元 素 必 须 具 有 相同 的 数据 类 型 。 除 非 创建 数组 对 象 时 指定 数据 类 型 ， 否 
则 数据 类 型 会 按照 数据 的 类 型 目 动 确定 。 


对 于 图 像 数 据 ， 下 面 的 例 于 前述 了 这 一 后 : 











im = array(Image.open('empire.jpg' )) 
print im.shape, im.dtype 


im = array(Image.open('empire.jpg').convert('L'),'f') 
print im.shape, im.dtype 


控制 从 输出 结 条 如 下 所 示 : 


(800, 569, 3) uint8 

(800, 569) float32 
每 行 的 第 一 个 元 组 表示 图 像 数组 的 大 小 〈 行 、 列 、 颜 色 通 道 ) ， 紧 接着 的 字符 串 表 
示 数 组 元 素 的 数据 类 型 。 因 为 图 像 通常 被 编码 成 无 符号 八 位 整数 (uint8)， 所 以 在 
第 一 种 情况 下 ， 载 和 人 图 像 并 将 其 转换 到 数组 中 ， 数 组 的 数据 类 型 为 “uint8 。 在 第 
二 种 情况 下 ， 对 图 像 进行 灰 度 化 处 理 ， 并 且 在 创建 数组 时 使 用 额外 的 参数 “f ;该 
参数 将 数据 类 型 转换 为 序 点 型 。 关 于 更 多 数据 类 型 选项 ， 可 以 参考 图 书 [24]。 注 意 ， 
由 于 灰 度 图 像 没 有 颜色 信息 ， 所 以 在 形状 元 组 中 ， 它 只 有 两 个 数值 。 








注 1: PyLab 实际 上 包含 Numpy 的 一 些 内 容 ， 如 数组 类 型 。 这 也 是 我 们 能 够 在 1.2 节 使 用 数组 类 型 的 原因 。 
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数组 中 的 元 素 可 以 使 用 下 标 访问 。 位 于 坐标 六 7 ， 以 及 颜色 通道 上 的 像素 值 可 以 像 
下 面 这 样 访问 : 


value = im[i,j,k] 


4 BAC UAE AA Ale]. A A AGRA eA fe H Ba Ps e] 
ZBCANDCRI. PEAR RAEI : 


im[i,:] = im[j,:] # 将 第 j 行 的 数值 赋值 给 第 i 行 

im[:,i] = 100 # 将 第 i 列 的 所 有 数值 设 为 100 

im[:100, :50].sum() # 计算 前 100 77. AY 50 列 所 有 数值 的 和 

im[ 50:100, 50:100] # 50~100 行 ，50~100 列 (不 包括 第 100 行 和 第 100 列 ) 
im[i].mean() # 第 工行 所 有 数值 的 平均 值 

im[:,-1] # 最 后 一 列 

im[-2,:] (or im[-2]) # HRB 





和 注意， 示例 仅仅 使 用 一 个 下 标 访问 数组 。 如 末 仅 使 用 一 个 下 标 ， 则 该 下 标 为 行 下 标 。 
注意 ， 在 最 后 几 个 例子 中 ， 负 数 切片 表示 从 最 后 一 个 元 素 逆 加 计数 。 我 们 将 会 频 获 
地 使 用 切片 技 术 访 问 像 素 值 ， 这 也 征 一 个 很 重要 的 思想 。 


我 们 有 很 多 操作 和 方法 来 处 理 数 组 对 象 。 本 书 将 在 使 用 到 的 地 方 逐 一 介绍 。 你 可 以 
查阅 在 线 文档 或 者 开源 图 书 [24] 获取 更 多 信息 。 


1.3.2 KETJA 


将 图 像 读 入 NumPy 数组 对 象 后 ， 我 们 可 以 对 它们 执行 任意 数学 操作 。 一 个 简单 的 例 
子 就 古 图 像 的 灰 度 变换 。 SE Bf, 它 将 0..255 区 间 (或 者 0..1 区 间 ) 映射 
到 自身 〈 意 思 是 说 ， 输 出 区 间 的 范围 和 输入 区 间 的 学 围 相 同 ) 。 下 面 是 关于 灰 度 变换 
Hy — 22 fil + 


from PIL import Image 
from numpy import * 


im = array(Image.open('empire.jpg').convert('L')) 
im2 = 255 - im # 对 图 像 进行 反 相 处 理 


im3 = (100.0/255) * im + 100 # 将 图 像 像素 值 变 换 到 100...200 区 间 





im4 = 255.0 * (im/255.0)**2 # 对 图 像 像 素 值 求 平方 后 得 到 的 图 像 


第 一 个 例子 将 灰 度 图 像 进行 反 相 处 理 ， 第 二 个 例子 将 图 像 的 像素 值 变换 到 100...200 
区 间 ， 第 三 个 例子 对 图 像 使 用 二 次 函数 变换 ， 使 较 暗 的 像素 值 变 得 更 小 。 图 1-4 为 
所 使 用 的 变换 函数 图 像 。 图 1-5 征 输 出 的 图 像 结 采 。 你 可 以 使 用 下 面 的 命令 查看 图 
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像 中 的 最 小 和 最 大 像素 值 : 


print int(im.min()), int(im.max()) 





f(x)=x 
f(x)=255-x 


( 
( 
f(x)=(100.0/255.0)*x+100 
f(x)=255.0*(x/255.0)*2 





0 50 100 150 200 250 











1-4; 灰 度 变换 示例 。 三 个 例子 中 所 使 用 函数 的 图 像 ， 其 中 虚线 表示 恒 等 变 换 














1-5: 灰 度 变 换 。 对 图 像 应 用 图 1-4 中 的 函数 :f(x)=255-x 对 图 像 进行 反 相 处 理 ( 左 );f(x)=(100/255) 
x+100 对 图 像 进行 变换 (P); F(x)=255(x/255)° WHR RoR BR (5) 
如 果 试 着 对 上 面 例子 查看 最 小 值 和 最 大 值 ， 可 以 得 到 下 面 的 输出 结果 : 

2 255 

QO 253 


100 200 
0 255 


array() 变换 的 相反 操作 可 以 使 用 PIL 的 fromarray() 函数 完成 : 








pil im = Image. fromarray(im) 


如 东 你 通过 一 些 操作 将 “uint8 ”数据 类 型 转换 为 其 他 数据 类 型 ， 比 如 之 前 例子 中 的 
im3 或 者 im4， 那 么 在 创建 PIL 图 像 之 前 ， 需 要 将 数据 类 型 转换 回来 : 





pil im = Image. fromarray(uint8(im) ) 


如 末 你 并 不 十 分 确定 输入 数据 的 类 型 ， 安 全 起 见 ， 应 该 先 转换 回来 。 注 站 ，NumPy 
总 征 将 数组 数据 类 型 转换 成 能 够 表示 数据 的 “了 最 低 ” 数据 类 型 。 对 浮 点 数 做 乘积 或 
除法 操作 会 使 整数 类 型 的 数组 变 成 序 氮 类 型 。 


1.3.3 图像 缩放 

NumPy 的 数组 对 象 是 我 们 处 理 图 像 和 数据 的 主要 工具 。 想 要 对 图 像 进行 缩放 处 理 没 
有 现成 简单 的 方法 。 我 们 可 以 使 用 之 前 PIL 对 图 像 对 象 转换 的 操作 ， 写 一 个 简单 的 
用 于 图 像 缩放 的 国 数 。 把 下 面 的 国 数 添加 到 imtool.py 文件 里 : 








def imresize(im,sz): 
""" 使 用 PIL 对 象 重新 定义 图 像 数 组 的 大 小 """ 


pil im = Image. fromarray(uint8(im) ) 


return array(pil_im.resize(sz)) 


我 们 将 会 在 接 下 来 的 内 容 中 使 用 这 个 函数 。 


1.3.4 ”直方 图 均衡 化 

图 像 灰 度 变换 中 一 个 韭 第 有 用 的 例子 就 是 直方 图 均衡 化 。 直 方 图 均衡 化 是 指 将 一 幅 
图 像 的 灰 度 直方 图 变 平 ， 使 变换 后 的 图 像 中 每 个 灰 度 值 的 分 布 概率 都 相同 。 在 对 图 
像 做 进一步 处 理 之 前 ， 直 方 图 均衡 化 通常 是 对 图 像 灰 度 值 进行 归 一 化 的 一 个 非常 好 
的 方法 ， 并 且 可 以 增强 图 像 的 对 比 度 。 


在 这 种 情况 下 ， 直 方 图 均衡 化 的 变换 函数 是 图 像 中 像素 值 的 累积 分 布 函 数 (cumulative 
distribution function， 人 简写 为 cdf， 将 像素 值 的 范围 映射 到 目标 范围 的 归 一 化 操作 )。 





下面 的 函数 是 直方 图 均衡 化 的 具体 实现 。 将 这 个 函数 添加 到 imtool.py 里 : 


def histeq(im,nbr bins=256): 
""" 对 一 幅 灰 度 图 像 进行 直方 图 均衡 化 """ 


# 计算 图 像 的 直方 图 

imhist,bins = histogram(im.flatten(),nbr bins,normed=True) 
cdf = imhist.cumsum() # 累积 分 布 函数 

cdf = 255 * cdf / cdf[-1] # GE 
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# 使 用 累积 分 布 函 数 的 线性 插值 ， 计 算 新 的 像素 值 
im2 = interp(im.flatten(),bins[:-1],cdf) 


return im2.reshape(im.shape), cdf 


IAPR BCA a A Ze Bx, eA ER, re BO R F ERDE Ae El. PA 
BOB E AD A ea A Be, ARH RRR TERY BY RRS A RI TE, A 
数 中 使 用 到 累积 分 布 国 数 的 最 后 一 个 元 素 〈 下 标 为 -1)， 目 的 是 将 其 归 一 化 到 0...1 
泥 围 。 你 可 以 像 下面 这 样 使 用 该 函数 : 


from PIL import Image 
from numpy import * 


im = array(Image.open('AquaTermi_lowcontrast.jpg').convert('L')) 
im2,cdf = imtools.histeq(im) 


图 1-6 和 图 1-7 A LMR AA ela. ki Tina ale By A 
AEC Z HUAN Za ARE OR, UA Be ae PEAS PT ER AR. ATLA, ED 
图 均衡 化 后 图 像 的 对 比 度 增强 了 ， 原 先 图像 灰 色 区 域 的 细 习 变 得 清晰 。 














1-6: 直方 图 均衡 化 示例 。 左 侧 为 原始 图 像 和 直 万 图 ， 中 间 图 为 灰 度 变换 函数 ， 右 侧 为 直 
万 图 均衡 化 后 的 图 像 和 相应 直方 图 





axa 
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变换 函数 





图 1-7: 直方 图 均衡 化 示例 。 左 侧 为 原始 图 像 和 直方 图 ， 中 间 图 为 灰 度 变换 函数 ， 右 侧 为 直 
万 图 均衡 化 后 的 图 像 和 相应 直方 图 


1.3.5 ”图像 平均 

图 像 平均 操 作 是 减少 图 像 噪声 的 一 种 简单 方式 ， 通 销 用 于 亏 术 特效 。 我 们 可 以 简单 
地 从 图 像 列表 中 计算 出 一 幅 平 均 图 像 。 假 设 所 有 的 图 像 具 有 相同 的 大 小 ， 我 们 可 以 
将 这 些 图 像 倍 单 地 相 加 ， 然 后 除 以 图 像 的 数目， 来 计算 平均 图 像 。 下 面 的 函数 可 以 
用 于 计算 平均 图 像 ， 将 其 添加 到 imtool.py XE: 


def compute average(imlist): 


""" 计算 图 像 列表 的 平均 图 像 """ 
# 打开 第 一 幅 图 像 ， 将 其 存储 在 浮 点 型 数组 中 


averageim = array(Image.open(imlist[0o]), 'f') 


for imname in imlist[1:]: 


Cry: 

averageim += array(Image.open(imname) ) 
except: 

print imname + '...skipped' 


averageim /= len(imlist) 

# 返回 uint8 类 型 的 平均 图 像 

return array(averageim, ‘uint8') 
该 函数 包括 一 些 基本 的 异 第 处 理 技巧 ， 可 以 自动 跳 过 不 能 打开 的 图 像 。 我 们 还 可 以 
使 用 mean() 函数 计算 平均 图 像 。mean() 函数 需要 将 所 有 的 图 像 堆 积 到 一 个 数组 中 ， 
也 就 是 说 ， 如 末 有 很 多 图 像 ， 该 处 理 方式 需要 占用 很 多 内 存 。 我 们 将 会 在 下 一 慷 中 
使 用 该 函数 。 
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1.3.6 图像 的 主 成 分 分 析 (PCA) 


PCA (Principal Component Analysis， 主 成 分 分 析 ) 是 一 个 非常 有 用 的 降 维 技巧 。 它 
可 以 在 使 用 尽 可 能 少 维 数 的 前 提 下 ， 尽 量 多 地 保持 训练 数据 的 信息 ， 在 此 意义 上 和 是 
一 个 最 佳 技巧 。 即 使 是 一 幅 100 x 100 像素 的 小 灰 度 图 像 ， 也 有 10 000 维 ， 可 以 看 
成 10 000 维 空 间 中 的 一 个 点 。 一 兆 像 素 的 图 像 具 有 百 万 维 。 由 于 图 像 具 有 很 高 的 维 
数 ， 在 许多 计算 机 视觉 应 用 中 ， 我 们 经 稼 使 用 降 维 操作 。PCA 产生 的 投影 矩阵 可 以 
被 视 为 将 原始 坐标 变换 到 现 有 的 坐标 系 ， 坐 标 系 中 的 各 个 坐标 按照 重要 性 递减 排列 。 


为 了 对 图 像 数 据 进 行 PCA 变换 ， 图 像 需 要 转换 成 一 维 癌 量 表 示 。 我 们 可 以 使 用 
NumPy 类 库 中 的 flatten() 方法 进行 变换 。 





将 变 平 的 图 像 堆 积 起 来 ， 我 们 可 以 得 到 一 个 矩阵 ， 和 矩阵 的 一 行 表示 一 幅 图 像 。 在 计算 
主 方向 之 前 ， 所 有 的 行 图 像 按 照 平均 图 像 进 行 了 中 心 化 。 我 们 通常 使 用 SVD (Singular 
Value Decomposition, #) {Ba f#) 方法 来 计算 主 成 分 ;但 当 和 矩阵 的 维 数 很 大 时 ， 
SVD 的 计算 非常 慢 ， 所 以 此 时 通常 不 使 用 SVD 分 解 。 下 面 就 是 PCA 操作 的 代码 : 








from PIL import Image 
from numpy import * 


def pca(X): 
Ww 主 成 分 分 析 : 
输入: 矩阵 X， 其 中 该 矩阵 中 存储 训练 数据 ， 每 一 行为 一 条 训练 数据 
返回 : 投影 矩阵 (按照 维度 的 重要 性 排序 )、 方 差 和 均值 """ 


# 获取 维 数 


num data, dim = X.shape 





# 数据 中 心 化 
mean X = X.mean(axis=0) 
X = X - mean X 


if dim>num data: 
# PCA- 使 用 紧 致 技巧 
M = dot(X,X.T) # 协 方差 矩阵 
e,EV = linalg.eigh(M) # 特征 值 和 特征 向 量 
tmp = dot(X.T,EV).T # 这 就 是 紧 致 技巧 
V = tmp[::-1] # 由 于 最 后 的 特征 同 量 是 我 们 所 需要 的 ， 所 以 需要 将 其 逆转 
S = sqrt(e)[::-1] # 由 于 特征 值 是 按照 递增 顺序 排列 的 ， 所 以 需要 将 其 逆转 
for i in range(V.shape[1]): 
Wa] ves 
else: 
# PCA- 使 用 SVD 方法 
U,S,V = linalg.svd(Xx) 
V = V[E:num data] # 仅仅 返回 前 nun data 维 的 数据 才 合 理 


# 返回 投影 矩阵 、 方 差 和 均值 


return V,S,mean X 





该 国 数 首先 通过 减 去 每 一 维 的 均值 将 数据 中 心 化 ， 然 后 计算 协 方差 矩阵 对 应 最 大 
特征 值 的 特征 同 量 ， 此 时 可 以 使 用 简明 的 技巧 或 者 SVD 分 解 。 这 里 我 们 使 用 了 
range() EARL, TARMAC RA BRA PER n, ARR BL EB OO... (n-1) 的 一 个 列 
表 。 你 也 可 以 使 用 arange() 国 数 来 返回 一 个 数组 ， 或 者 使 用 xrange() 函数 返回 一 个 
Po as 〈 可 能 会 提升 速度 ) 。 我 们 在 本 书 中 贯穿 使 用 range() 国 数 。 


如 果 数 据 个 数 小 于 向量 的 维 数 ， 我 们 不 用 SVD 分 解 ， 而 是 计算 维 数 更 小 的 协 方差 矩 
阵 XX 的 特征 向 量 。 通 过 仅 计 算 对 应 前 上 (KE 是 降 维 后 的 维 数 ) 最 大 特征 值 的 特征 癌 
量 ， 可 以 使 上 面 的 PCA 操作 更 快 。 由 于 篇 幅 所 限 ， 有 区 趣 的 读者 可 以 目 行 探索 。 盾 
血 信 的 每 行 问 量 都 是 正 交 的 ， 并 且 包 仿 了 训练 数据 方差 依次 减少 的 坐标 方 癌 。 


我 们 接 下 来 对 字体 图 像 进行 PCA 变换 。fontimages.zip 文件 包含 采用 不 同 字 体 的 字 
FF a 的 缩 略 图 。 所 有 的 2359 种 字体 可 以 免费 下 载 。 假 定 这 些 图 像 的 名 称 保存 在 列 
K imlist 中 ， 跟 之 前 的 代码 一 起 保存 传 在 pca.py 文件 中 ， 我 们 可 以 使 用 下 面 的 脚本 
计算 图 像 的 主 成 分 : 

from PIL import Image 

from numpy import * 


from pylab import * 
import pca 


im = array(Image.open(imlist[0])) # 打开 一 幅 图 像 ， 获 取 其 大 小 
m,n = im.shape[0:2] # 获取 图 像 的 大 小 
imnbr = len(imlist) # 获取 图 像 的 数目 


# GEM, RENAE FEI Raa 
immatrix = array([array(Image.open(im)).flatten() 
for im-in Amlast |e") 





# 执行 PCA 操作 
V,S,immean = pca.pca(immatrix) 


# 显示 一 些 图 像 (均值 图 像 和 前 7 个 模式 ) 
figure() 
gray() 
subplot(2,4,1) 
imshow(immean.reshape(m,n) ) 
for i in range(7): 
subplot (2,4, i+2) 
imshow(V[i].reshape(m,n) ) 


show() 
广 意 ， 图 像 需 要 从 一 维 表 示 重 新 转换 成 二 维 图 像 ， 可 以 使 用 reshape() AB. 4K 
1-8 所 示 ， 运 行 该 例子 会 在 一 个 绘图 窗口 中 显示 8 个 图 像 。 这 里 我 们 使 用 了 Pylab Æ 
的 subplot() 函数 在 一 个 窗口 中 放置 多 个 图 像 。 


TE 1: 免费 字体 图 像 库 由 Martin Solli 收集 并 上 传 (http://webstaff.itn.liu.se/~marso/)。 





基本 的 图 像 操 作 和 处 理 | 15 

















图 1-8: 平均 图 像 (ZE) 和 前 7 个 模式 〈 具 有 最 大 方差 的 方向 模式 ) 


1.3.7 使 用 pickle 模 块 


如 果 想 要 保存 一 些 结果 或 者 数据 以 方便 后 续 使 用 ，Python 中 的 pickle 模块 非常 有 
FA. pickle 模块 可 以 接受 几乎 所 有 的 Python 对 象 ， 并 且 将 其 转换 成 字符 串 表 示 ， 该 
过 程 叫做 封装 〈pickling)。 从 字符 串 表 示 中 重 构 该 对 象 ， 称 为 拆 封 (unpickling)。 
这 些 字符 串 表 示 可 以 方便 地 存储 和 传输 。 


我 们 来 看 一 个 例子 。 假 设想 要 保存 上 一 元 字体 图 像 的 平均 图 像 和 主 成 分 ， 可 以 这 样 
来 完成 : 

# 保存 均值 和 主 成 分 数据 

f = open('font pca modes.pkl', 'wb') 

pickle.dump(immean, f) 


pickle.dump(V, f) 
f.close() 


在 上 述 例子 中 ， 许 多 对 象 可 以 保存 到 同一 个 文件 中 。pickle 模块 中 有 很 多 不 同 的 协 
议 可 以 生成 .pkl 文件 ， 如 来 不 确 定 的话 ， 取 好 以 二 进 制 文件 的 形式 读 取 和 写 入 。 在 
其 他 Python 会 话 中 载 入 数据 ， 只 需要 如 下 使 用 load() 方法 : 

# 载 人 均值 和 主 成 分 数据 

f = open('font_pca_modes.pkl', 'rb') 

immean = pickle.load(f) 


V = pickle. load(f) 
f.close() 


注意 ， 载 和 对象 的 顺序 必须 和 先前 保存 的 一 样 。Python 中 有 个 用 C 语 言 写 的 优化 版 
AX, WU file cpickle 模块 ， 该 模块 和 标准 pickle RACER. KT pickle 模块 的 更 
多 内 容 ， 参 见 pickle 模块 文档 页 http://docs.python.org/library/pickle.html , 








在 本 书 接 下 来 的 章 和 中， 我 们 将 使 用 with 语句 处 理 文件 的 读 写 操作 。 这 是 Python 
2.5 引入 的 思想 ， 可 以 自动 打开 和 关闭 文件 《即使 在 文件 打开 时 发 生 错误 )。 下 面 的 
例子 使 用 with() 来 实现 保存 和 载 和 操作: 

# 打开 文件 并 保存 

with open('font_pca_modes.pkl', 'wb') as f: 


pickle.dump(immean, f) 
pickle. dump(V, f) 


和 


# 打开 文件 并 载 人 
with open('font_pca_modes.pkl', 'rb') as f: 
immean = pickle. load(f) 
V = pickle. load(f) 
上 面 的 例子 年 看 起 来 可 能 很 奇怪 ， 但 with() 确实 是 个 很 有 用 的 思想 。 如 果 你 不 喜欢 
它 ， 可 以 使 用 之 前 的 open 和 close 国 数 。 


作为 pickle 的 一 种 替代 方式 ，NumpPy 具有 读 写 文本 文件 的 简单 国 数 。 如 采 数 据 中 不 
包含 复杂 的 数据 结构 ， 比 如 在 一 幅 图 像 上 点 击 的 点 列表 ，NumPy 的 读 写 函数 会 很 有 
用 。 保 存 一 个 数组 x 到 文件 中 ， 可 以 使 用 : 





savetxt('test.txt',x, '%i' ) 


了 最 后 一 个 参数 表示 应 该 使 用 整数 格 藉 。 类 似 地 ， 读 取 可 以 使 用 : 





x = loadtxt('test.txt') 


你 可 以 从 在 线 文档 http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt. 
html 了 解 更 多 内 容 。 


最 后 ，NumPy 有 专门 用 于 保存 和 和 载 入 数组 的 函数 。 你 可 以 在 上 面 的 在 线 文 档 里 查看 
关于 save() 和 load() 的 更 多 内 容 。 


1.4 SciPy 


SciPy (http://scipy.org/) 是 建立 在 NumPy 基础 上 ， 用 于 数值 运算 的 开源 工具 包 
SciPy 所 供 很 多 高 效 的 操作 ， 可 以 实现 数值 积分 、 优 化 、 统 计 、 信 号 处 理 ， 以 及 对 
我 们 来 说 最 重要 的 图 像 处 理 功 能 。 接 下 来 ， 本 证 会 介绍 SciPy 中 大 量 有 用 的 模块 。 
Scipy 是 个 开源 工具 包 ， 可 以 从 http://scipy.org/Download 下 载 。 
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1.4.1 ”图像 模糊 
图 像 的 高 斯 模糊 是 非常 经 典 的 图 像 卷 积 例子 。 本 质 上 ， 图 像 模 糊 就 是 将 ( 灰 度 ) 图 
像 上 和 一 个 高 斯 核 进行 卷 积 操作 : 


L=FG, 
其 中 * 表示 卷 积 操 作 ，G, 是 标准 差 为 o 的 二 维 高 斯 核 ， 定 义 为 : 


1 —(x 45 20" 
= 5 e 
2TO 





oO 


高 斯 模糊 通常 是 其 他 图 像 处 理 操作 的 一 部 分 ， 比 如 图 像 插值 操作 、 兴 趣 点 计算 以 及 
很 多 其 他 应 用 。 


SciPy 有 用 来 做 滤波 操作 的 scipy.ndimage.filters 模块 。 该 模块 使 用 快速 一 维 分 离 
的 方式 来 计算 卷 积 。 你 可 以 像 下 面 这 样 来 使 用 它 : 
from PIL import Image 


from numpy import * 
from scipy.ndimage import filters 


im = array(Image.open('empire.jpg').convert('L')) 
im2 = filters.gaussian filter(im,5) 


上 面 guassian filter() 国 数 的 最 后 一 个 参数 表示 标准 差 。 
1-9 显示 了 随 着 o 的 增加 ， 一 幅 图 像 锌 模糊 的 程度 。o 越 大 ， 处 理 后 的 图 像 细 市 
丢失 越 多 。 如 琳 打 算 模 糊 一 幅 彩 色 图 像 ， 只 需 简 单 地 对 每 一 个 颜色 通道 进行 高 斯 
模糊 : 

im = array(Image.open('empire.jpg')) 

im2 = zeros(im.shape) 

for i in range(3): 


im2[:,:,i] = filters.gaussian filter(im[:,:,i],5) 
im2 = uint8(im2) 


在 上 面 的 脚本 中 ， 节 后 并 不 总 是 需要 将 图 像 转换 成 uint8 格式 ， 这 里 只 是 将 像素 值 
用 八 位 来 表示 。 我 们 也 可 以 使 用 : 


im2 = array(im2,'uint8') 
来 完成 转换 。 


关于 该 模块 更 多 的 内 容 以 及 不 同 参 数 的 选择 ， 请 查看 http://docs.scipy.org/doc /scipy/ 
reference/ndimage.html 上 Scipy 文档 中 的 scipy.ndimage 部 分 。 
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1-9: 使 用 scipy.ndimage.filters 模块 进行 高 斯 模糊 : (a) 原始 灰 度 图 像 ，(b) 使 用 o=2 
的 高 斯 滤波 器 ; (C) 使 用 O=95 的 局 斯 滤波 器 ; (d) 使 用 O=10 的 局 斯 滤波 器 


1.4.2 图像 导数 

整 本 书 中 可 以 看 到 ， 在 很 多 应 用 中 图 像 强 度 的 变化 情况 是 非常 重要 的 信息 。 强 度 的 
变化 可 以 用 灰 度 图 像 工 (对 于 彩色 图 像 ， 通 常 对 每 个 颜色 通道 分 别 计算 导数 ) 的 x 
和 yy 方向 导数 工 和 工 进行 描述 。 


图 像 的 梯度 向 量 为 v1 = [I 1 。 梯 度 有 两 个 重要 的 属性 ， 一 是 梯度 的 大 小 : 


VIJ= VP+} 
CA T RRR REE CHESS, E A: 





a=arctan2(I,,, I) 


描述 了 图 像 中 在 每 个 点 (像素) 上 强度 变化 最 大 的 方向 。NumpPy 中 的 arctan2() 函数 
返回 着 度 表示 的 有 符号 角度 ， 角 度 的 变化 区 间 为 -r.r 


我 们 可 以 用 离散 近似 的 方式 来 计算 图 像 的 导数 。 图 像 导 数 大 多 数 可 以 通过 卷 积 人 简单 
地 实现 : 
LID, M ILID, 


对 于 D, 和 D,， 通 第 选择 Prewitt URW aF : 


-101 = A | 
D,=|-1 0 1 和 D,=| 0 0 | 
-101 111 











或 者 Sobel 滤波 器 : 
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1 64 eo 
D,=|—2 0 2/41 D,=-| 0 0 0 
=i @ 4 [2i 








这 些 导 数 滤 波 器 可 以 使 用 scipy.ndimage.filters $E AY tr UE A BR ER EE fal PE He K 
现 ， 例如 : 
from PIL import Image 


from numpy import * 
from scipy.ndimage import filters 


im = array(Image.open('empire.jpg').convert('L')) 


# Sobel 导数 滤波 器 
imx = zeros(im.shape) 
filters.sobel(im,1, imx) 


imy = zeros(im.shape) 
filters.sobel(im,0, imy) 


magnitude = sqrt(imx**2+imy**2) 


上 面 的 脚本 使 用 Sobel 滤波 器 来 计算 x 和 yy 的 方 同 导数 ， 以 及 梯度 大 小 。sobel() K 
数 的 第 二 个 参数 表示 选择 x 或 者 y 方 同 导数 ， 第 三 个 参数 保存 输出 的 变量 。 图 1-10 
显示 了 用 Sobel 滤波 絮 计 算出 的 导数 图 像 。 在 两 个 导数 图 像 中 ， 正 导数 显示 为 亮 的 
像素 ， 负 导数 显示 为 暗 的 像素 。 灰 色 区 域 表示 导数 的 值 接近 于 零 。 














1-10: 使 用 Sobel 导数 滤波 器 计算 导数 图 像 : (a) RIGKREBE: (b) x ABE: (c) 
y 导数 图 像 ，(d) 梯度 大 小 图 像 


上 述 计算 图 像 导数 的 方法 有 一 些 缺 陷 ， 在 该 方法 中 ,滤波 副 的 尺度 需要 随 着 图 像 分 
辨 率 的 变化 而 变化 。 为 了 在 图 像 噪声 方面 更 稳健 ， 以 及 在 任意 太 度 上 计算 导数 ， 我 
APT PT LAE FA rea Sp + BU UK air : 








[=I*G,, Fl L=I*G,, 
其 中 ，G 和 Go 表示 G, 在 x 和 了 方 癌 上 的 导数 ，G。 为 标准 差 为 o 的 高 斯 国 数 。 


我 们 之 前 用 于 模糊 的 filters.gaussian filter() 国 数 可 以 接受 额外 的 参数 ， 用 来 计 
算 高 斯 导数 。 可 以 简单 地 按照 下 面 的 方式 来 处 理 : 
sigma = 5 # 标准 差 


imx = zeros(im.shape) 
filters.gaussian filter(im, (sigma,sigma), (0,1), imx) 


imy = zeros(im.shape) 
filters.gaussian filter(im, (sigma,sigma), (1,0), imy) 


TZ PRAY = PBS BT VE OT PG IP DB SS PB BOY EE os 
准 差 。 你 可 以 查看 相应 文档 了 解 详情 。 图 1-11 显示 了 不 同 尺 度 下 的 导数 图 像 和 梯度 
大 小 。 你 可 以 和 图 1-9 中 做 相同 尺度 模糊 的 图 像 做 比较 。 








Wr 
i Vi A 
f 7 no ) f 

as FAS 
(d) 

1-11; 使 用 高 斯 导数 计算 图 像 导 数 : x 导数 图 像 (E), y 导数 图 像 (中 )， 以 及 梯度 大 小 图 
像 (下) ; (a) 为 原始 灰 度 图 像 ，(b) 为 使 用 o=2 的 高 斯 导数 滤波 器 处 理 后 的 图 像 ，(c) 为 使 
用 o=5 的 高 斯 导数 滤波 器 处 理 后 的 图 像 ，(d) 为 使 用 o=10 的 高 斯 导数 滤波 器 处 理 后 的 图 像 
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1.4.3 ”形态 学 : 对 象 计数 

形态 学 〈 或 数学 形态 学 ) 是 度量 和 分 析 基 本 形状 的 图 像 处 理 方 法 的 基本 框架 与 集合 。 
形态 学 通常 用 于 处 理 二 值 图像 ， 但 是 也 能 够 用 于 灰 度 图 像 。 二 值 图 像 是 指 图 像 的 每 
个 像素 只 能 取 两 个 值 ， 通 和 党 是 0 和 1。 二 值 图 像 通常 是 ， 在 计算 物体 的 数 日 ， 或 者 
度量 其 大 小 时 ， 对 一 幅 图 像 进 行 网 值 化 后 的 结果 。 你 可 以 从 http://en.wikipedia.org/ 
wiki/Mathematical_morphology 大 体 了 解 形态 学 及 其 处 理 图 像 的 方式 。 


scipy.ndimage 中 的 morphology 模块 可 以 实现 形态 学 操作 。 你 可 以 使 用 scipy. 
ndimage 中 的 measurements 模块 来 实现 二 值 图 像 的 计数 和 度量 功能 。 下 面 通 过 一 个 简 
单 的 例子 介绍 如 何 使 用 它们 。 


考虑 在 图 1-12a 里 的 二 值 图 像 ， 计 算 该 图 像 中 的 对 象 个 数 可 以 通过 下 面 的 脚本 实现 : 
from scipy.ndimage import measurements,morphology 


E 裁 和 图像， 然后 使 用 病 值 化 操作 ， 以 保证 处 理 的 图 像 为 二 值 图像 
im = array(Image.open('houses.png').convert('L')) 
im = 1*(im<128) 


labels, nbr objects = measurements. label(im) 
print "Number of objects: -nbr objects 


上 面 的 脚本 首先 载 入 该 图 像 ， 通 过 国 值 化 方式 来 确保 该 图 像 是 二 值 图 像 。 通 过 和 1 
相 乘 ， 脚 本 将 布尔 数组 转换 成 二 进 制 表 示 。 然 后 ， 我 们 使 用 label() 函数 寻找 单个 
的 物体 ， 并 且 按 照 它们 属于 哪个 对 象 将 整数 标签 给 像素 赋值 。 图 1-12b 是 labels 数 
组 的 图 像 。 图 像 的 灰 度 值 表 示 对 象 的 标签 。 可 以 看 到 ， 在 一 些 对 象 之 间 有 一 些小 的 
和 连接。 进行 二 进 制 开 (binary open) 操作 ， 我 们 可 以 将 其 移 除 : 

# 形态 学 开 操作 更 好 地 分 离 各 个 对 象 


im open = morphology.binary_opening(im,ones((9,5)),iterations=2) 


labels open, nbr_objects open = measurements.label(im open) 
print "Number of objects:", nbr objects open 


binary_opening() 国 数 的 第 二 个 参数 指定 一 个 数组 结构 元 素 。 该 数组 表示 以 一 个 
像素 为 中 心 时 ， 使 用 哪些 相 邻 像素 。 在 这 种 情况 下 ， 我 们 在 ? 方 同 上 使 用 9 个 像 
素 〈( 上 面 4 个 像素 、 像 素 本 届 、 下 面 4 个 像素 )， 在 zx 方向 上 使 用 S 个 像素 。 你 
可 以 指定 任意 数组 为 结构 元 素 ， 数 组 中 的 非 零 元 素 决 定 使 用 哪些 相 邻 像素 。 参 数 
iterations 决定 执行 该 操作 的 次 数 。 你 可 以 尝试 使 用 不 同 的 迭代 次 数 iterations 值 ， 
看 一 下 对 象 的 数目 如 何 变化 。 你 可 以 在 图 1-12c 与 图 1-12d 中 查看 经 过 开 操 作 后 的 








TE 1: 这 个 图 像 实际 上 是 图 像 “ 分 割 ” 后 的 结 东 。 如 采 你 想 知 道 该 图 像 是 如 何 创建 的 ， 可 以 查看 9.3 -。 








入 和 
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图 像 ， 以 及 相应 的 标签 图 像 。 正 如 你 想象 的 一 样 ，binary_closing() 国 数 实现 相反 
的 操作 。 我 们 将 该 函数 和 在 morphology 和 measurements 模块 中 的 其 他 函数 的 用 法 留 
作 练 习 3。 你 可 以 从 scipy.ndimage 模块 文档 http://docs.scipy.org/doc/scipy/reference/ 
ndimage.html 中 了 解 关 于 这 些 国 数 的 更 多 知识 。 





ATT) Mt cree 
(TTT 


AALAGA aed sins hi 


na Ada AnA: 2 A AdAAhdtà: 


(a) (b) 














AG 


h À ÀALARAAGA TT 


(c) (d) 


E i2; pels 使 用 二 值 开 操作 将 对 象 分 开 ， ee (a) 为 原始 二 值 
图 像 ; Dai a 图 像 ， 其 中 屎 度 值 表 示 物 体 的 标签 ;，(c) 为 使 用 开 操 作 后 
的 二 a. ) 为 开 操作 后 图 像 的 标签 图 像 


1.4.4 一 些 有 用 的 SciPy 模 块 
SciPy 中 包含 一 些 用 于 输入 和 输出 的 实用 模块 。 下 面 介 绍 其 中 两 个 模块 ，io Fl misc. 


















1. 读 写 .mat 文 件 
如 果 你 有 一 些 数据 ， 或 者 在 网 上 下 载 到 一 些 有 趣 的 数据 集 ， 这 些 数 据 以 Matlab 
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的 mat 文件 格 云 存 储 ， 那 么 可 以 使 用 scipy.io 模块 进行 恋 取 。 


data = scipy.io.loadmat('test.mat' ) 


上 面 代码 中 ，data 对 和 象 包含 一 个 字典 ， 字典 中 的 键 对 应 于 保存 在 原始 mat 文件 中 的 
变量 名 。 由 于 这 些 变 量 是 数组 格式 的 ， 因 此 可 以 很 方便 地 保存 到 .mat 文件 中 。 你 仅 
需 创 建 一 个 字典 (其 中 要 包含 你 想 要 保存 的 所 有 变量 )， 然 后 使 用 savemat() 函数 : 
data = {} 
data['x'] = x 
scipy.io.savemat('test.mat' ,data) 
因为 上 面 的 脚本 保存 的 是 数组 x， 所 以 当 读 入 到 Matlab 中 时 ， 变 量 的 名 字 仍 为 x。 
关于 scipy.io 模块 的 更 多 内 容 ， 请 参见 在 线 文 档 http://docs.scipy.org/doc/scipy/ 


reference/io.html, 


2. 以 图 像 形式 保存 数组 

因为 我 们 需要 对 图 像 进行 操作 ， 并 且 需 要 使 用 数组 对 象 来 做 运算 ， 所 以 将 数组 直接 
保存 为 图 像 文件 非常 有 用 。 本 书 中 的 很 多 图 像 都 是 这 样 的 创建 的 。 

imsave() 图 数 可 以 从 scipy.misc 模块 中 载 和 信 。 要 将 数组 im 保存 到 文件 中 ， 可 以 使 用 
下 面 的 命令 : 


from scipy.misc import imsave 
imsave('test.jpg', im) 


scipy.misc 模块 同样 包含 了 著名 的 Lena 测试 图 像 : 


lena = scipy.misc.lena() 


该 脚本 返回 一 个 512 x 512 的 灰 度 图 像 数 组 。 


15 高 级 示例 : ARAL 


我 们 通过 一 个 非常 实用 的 例子 一 一 图 像 的 去 品 一 一 来 结束 本 革 。 图 像 去 骂 是 在 去 除 
图 像 噪声 的 同时 ， 尽 可 能 地 保留 图 像 细 贡 和 结构 的 处 理 技术 。 我 们 这 里 使 用 ROF 
(Rudin-Osher-Fatemi) 去 噪 模型。 该 模型 最 早出 现在 文献 [28] F. BRERA TIN 
多 应 用 来 说 痢 非 常 重 要， 这 些 应 用 沁 围 很 三 ， 小 到 让 你 的 假期 照片 看 起 来 更 漂亮 ， 
大 到 提高 卫星 图 像 的 质量 。ROF 模型 具有 很 好 的 性 质 : 使 处 理 后 的 图 像 更 平 请 ， 同 
时 保持 图 像 边缘 和 结构 信息 。 











注 1: 所 有 Pylab 图 均 可 保存 为 多 种 图 像 格 式 ， 方 法 是 点 击 图 像 窗口 中 的 “保存 ”按钮 。 
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ROF 模型 的 数学 基础 和 处 理 技巧 非常 高 深 , 不 在 本 书 讲述 范围 之 内 。 在 讲述 如 何 基 
于 Chambolle 提出 的 算法 [5] 实现 ROF 求解 器 之 前 ， 本 书 首先 人 简要 介绍 一 下 ROF 
模型 。 





一 幅 (RE) 图 像 T 的 全 变 差 (Total Variation, TV) €E CARER ZA, EE 
续 表 示 的 情况 下 ， 全 变 差 表示 为 : 





JD) = { |VI |dx (1.1) 








在 离散 表示 的 情况 下 ， 全 变 差 表示 为 : 
JD = DVT 
其 中 ， 上 面 的 式 子 是 在 所 有 图 像 坐 标 x=[x, 上 取 和 。 
在 Chambolle 提出 的 ROF 模型 里 ,目标 函数 为 寻找 降 品 后 的 图 像 VU， 使 下 式 最 小 : 
min||T- UI|’+247(0), 


RAAI- Ul 是 去 噪 后 图 像 VU 和 原始 图 像 了 产 异 的 度量 。 也 就 古 说 ， 本 质 上 该 
模型 使 去 品 后 的 图 像 像 素 值 “平坦 ”变化 ， 但 是 在 图 像 区 域 的 边 绿 上 ， 人 允许 去 噪 后 
MA BRS “WER” Ait. 


按照 论文 [5] 中 的 算法 ， 我 们 可 以 按照 下 面 的 代码 实现 ROF 模型 去 噪 








from numpy import * 


def denoise(im,U_ init, tolerance=0.1,tau=0.125,tv_weight=100): 
""" 使 用 A. Chambolle (2005) 在 公式 (11) 中 的 计算 步骤 实现 Rudin-Osher-Fatemi (ROF) 去 噪 模型 


输入 : 含有 噪声 的 输入 图 像 〈 灰 度 图 像 )、 的 初始 值 、TV 正则 项 权 值 、 步 长 、 停 业 条 件 
输出 :去 噪 和 去 除 纹理 后 的 图 像 、 纹 理 残 留 """ 

m,n = im.shape # 噪声 图 像 的 大 小 

# Maat 

U = U init 

Px = im # 对 偶 域 的 x 分 量 

Py = im # 对 偶 域 的 y 分 量 


error = 1 


while (error > tolerance): 
Uold = U 
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# 原始 变量 的 梯度 
GradUx = roll(U,-1,axis=1)-U # 变量 U 梯度 的 x 分 量 
GradUy = roll(U,-1,axis=0)-U # 变量 U 梯度 的 y 分 量 





# 更 新 对 偶 变 量 

PxNew = Px + (tau/tv_weight )*GradUx 

PyNew = Py + (tau/tv_weight )*GradUy 

NormNew = maximum(1, sqrt (PxNew**2+PyNew**2 ) ) 
Px = PxNew/NormNew # 更 新 X 分量 
Py = PyNew/NormNew # 更 新 y 分 量 
# 更 新 原始 变量 

RxPx = roll(Px,1,axis=1) # 对 x 分 量 进行 向 右 x 轴 平 移 
RyPy = roll(Py,1,axis=0) # 对 y 分 量 进行 向 右 y 轴 平 移 


DivP = (Px-RxPx)+(Py-RyPy) # 对 偶 域 的 散 度 
U = im + tv weight*DivP # 更 新 原始 变量 


# 更 新 误差 
error = linalg.norm(U-Uold)/sqrt(n*m) ; 


return U,im-U # 去 噪 后 的 图 像 和 纹理 残余 


在 这 个 例子 中 ， oe ee 顾名思义 ， 在 一 个 坐标 轴 上 ， 它 循环 “ 滚 
动 ”数组 中 的 元 素 值 。 该 国 数 可 以 非 稼 方便 地 计算 邻 域 元 和 素 的 差异 ， 比 如 这 里 的 
导数 。 我 们 还 使 用 了 te norm() EIA, AEB RY LA eae PAS BZA Al (这 个 例子 
F Æ tE R RHEE UF Uold) 的 差异 。 我 们 将 这 个 denoise() 函数 保存 到 rof.py X 
件 中 。 


下 面 使 用 一 个 合成 的 噪声 图 像 示例 来 说 明 如 何 使 用 该 函数 : 


from numpy import * 

from numpy import random 

from scipy.ndimage import filters 
import rof 


# 使 用 噪声 创建 合成 图 像 

im = zeros((500,500) ) 

im[100:400,100:400] = 128 

im[200:300,200:300] = 255 

im = im + 30*random.standard_ normal( (500,500) ) 


U,T = rof.denoise(im, im) 
G = filters.gaussian filter(im, 10) 


# 保存 生成 结 采 

from scipy.misc import imsave 
imsave('synth_rof.pdf' ,U) 
imsave('synth_ gaussian. pdf" ,G) 








原始 图 像 和 图 像 的 去 噪 结 采 如 图 1-13 所 示 。 正 如 你 所 看 到 的 ，ROF 算法 去 噪 后 的 
图 像 很 好 地 保留 了 图 像 的 边 绿 信息 。 








(a) (b) (c) 


1-13: 使 用 ROF 模型 对 合成 图 像 去 品 : (a) 为 原始 噪声 图 像 ，(b) 为 经 过 高 斯 模糊 的 图 像 
(o=10) ; (c) 为 经 过 ROF 模型 去 噪 后 的 图 像 


下 面 看 一 下 在 实际 图 像 中 使 用 ROP PAYS ER OCR 





from PIL import Image 
from pylab import * 
import rof 


im = array(Image.open('empire.jpg').convert('L')) 
U,T = rof.denoise(im, im) 


figure() 
gray() 
imshow(U) 
axis('equal') 
axis('off') 
show() 


经 过 ROF 去 噪 后 的 图 像 如 图 1-14c 所 示 。 为 了 方便 比较 ， 该 图 中 同样 显示 了 模糊 后 
的 图 像 。 可 以 看 到 ，ROF 去 噪 后 的 图 像 保 留 了 边缘 和 图 像 的 结构 信息 ， 同 时 模糊 了 


Opt —— 9 


AFT g 
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1-14; 使 用 ROF 模型 对 灰 度 图 像 去 噪 : (a) 为 原始 噪声 图 像 ，(b) 为 经 过 高 斯 模糊 的 图 
R (0=5) ; (c) 为 经 过 ROF 模型 去 噪 后 的 图 像 


练习 


(1) 如 图 1-9 所 示 ， 将 一 幅 图 像 进 行 高 斯 模糊 处 理 。 随 着 o 的 增加 ， 绘 制 出 图 像 轮 万。 
在 你 绘制 出 的 图 中 ， 图 像 的 轮 慷 有 何 变 化 ?你 能 解释 为 什么 会 发 生 这 些 变 化 吗 ? 
(2) 通过 将 图 像 模糊 化 ， 然 后 从 原始 图 像 中 减 去 模糊 图 像 ， 来 实现 反 锐 化 图 像 掩 模 操 
VE (http://en.wikipedia.org/wiki/Unsharp_masking)。 反 锐 化 图 像 掩 模 操 作 可 以 实 
现 图 像 锐 化 效果 。 试 在 彩色 和 灰 度 图 像 上 使 用 反 锐 化 图 像 掩 模 操 作 ， 观 罕 该 操作 
的 效果 。 

(3) 除了 直方 图 均衡 化 ， 商 图 像 是 另 一 种 图 像 归 一 化 的 方法 。 商 图 像 可 以 通过 除 以 模 
糊 后 的 图 像 IC* G) 获得 。 尝 试 使 用 该 方法 ， 并 使 用 一 些 样本 图 像 进 行 验 证 

(4) 使 用 图 像 梯度 ， 编 写 一 个 在 图 像 中 获得 简单 物体 (例如 ， 白色 背景 中 的 正方 形 ) 
轮廓 的 函数 。 

(5) 使 用 梯度 方 回 和 大 小 检测 图 像 中 的 线段 。 估 计 线 段 的 长 度 以 及 线段 的 参数 ， 并 在 
原始 图 像 中 重新 绘制 该 线段 。 

(6) 使 用 label() 函数 处 理 二 值 化 图 像 ， 并 使 用 直方 图 和 标签 图 像 绘 制图 像 中 物体 的 
DM 

(7) 使 用 形态 学 操作 处 理 病 值 化 图 像 。 在 发 现 一 些 参 数 能 够 产生 好 的 结果 后 ， 使 用 
morphology 模块 里 面 的 center of mass() 函数 寻找 每 个 物体 的 中 心 坐标 ， 将 其 在 
图 像 中 绘制 出 来 。 
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> 了 中 一 ro 
代码 示例 约定 
从 第 2 章 起 ， 我 们 假定 PIL、NumPy 和 Matplotlib 都 包括 在 你 所 创建 的 每 个 文件 和 每 
A To TH I 





from PIL import Image 
from numpy import * 
from pylab import * 


这 种 约定 使 得 示例 代码 更 清晰 ， 同 时 也 便于 读者 理解 。 除 此 之 外 ， 我 们 使 用 Scipy 
模块 时 ， 将 会 在 代码 示例 中 显 式 声明 。 
一 些 纯化 论 者 会 反对 这 种 将 全 体 模块 导入 的 方式 ， 坚 持 如 下 使 用 方式 : 


import numpy as np 

import matplotlib.pyplot as plt 
这 种 方式 能 够 保持 命名 空间 (知道 每 个 函数 从 哪儿 来 )。 因 为 我 们 不 需要 PyLab 中 的 
NumPy 部 分 ， 所 以 该 例子 只 从 Matplotlib 中 导入 pyplot 部 分 。 纯 化 论 者 和 经 验 丰 富 
的 程序 员 们 知道 这 些 区 别 ， 他 们 能 够 选择 目 己 喜欢 的 方式 。 但 征 ， 为 了 使 本 书 的 内 
容 和 例子 更 容易 被 读者 接受 ， 我 们 不 打算 这 样 做 。 


请 读者 注音 。 
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局 部 图 像 描述 子 





本 草 旨 在 寻找 图 像 间 的 对 应 点 和 对 应 区 域 。 本 章 将 介绍 用 于 图 像 匹配 的 两 种 局 部 摘 
述 子 算法 。 本 书 的 很 多 内 容 中 都 会 用 到 这 些 局 部 特征 ， 它 们 在 很 多 应 用 中 都 有 重要 
作用 ， 比 如 创建 全 景 图 、 增 强 现实 技术 以 及 计算 图 像 的 三 维 重 建 。 


2.1 Harris 角 点 检测 器 


Harris A 点 检测 算法 〈 也 称 Harris & Stephens ARMS) 是 一 个 极为 简单 的 角 点 
检测 算法 。 该 算法 的 主要 思想 是 ， 如 有 果 像 素 周 围 显示 存在 多 于 一 个 方 同 的 边 ， 我 们 
认为 该 点 为 兴趣 点 。 该 点 就 称 为 角 点 。 


我 们 把 图 像 域 中 点 x 上 的 对 称 半 正定 第 阵 Mj=M, (x) 定义 为 : 





M,=VIVI = : 


y 


lu L] Sea (2.1) 





I LI, 
ld, 2 


其 中 VY7 Ay he eT, M PRE (我 们 已 经 在 第 1 草 定 义 了 图 像 的 导数 和 梯 
度 )。 由 于 该 定义 ，M, 的 秩 为 1， 特征 值 为 1=|VI| 和 ?=0。 现 在 对 于 图 像 的 每 一 个 
像素 ， 我 们 可 以 计算 出 该 矩阵 。 


选择 权重 矩阵 所 ( 通 第 为 高 斯 滤波 如 Go) ， 我 们 可 以 得 到 卷 积 : 


M= W * M, (22) 
该 卷 积 的 目的 是 得 到 M, 在 周围 像素 上 的 局 部 平均 。 计 算出 的 矩阵 M, A RA Harris 
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矩阵 。 歼 的 帘 度 决定 了 在 像素 x 周围 的 感 兴趣 区 域 。 像 这 样 在 区 域 附 近 对 矩阵 和 y， 
取 平 均 的 原因 是 ， 特 征 值 会 依赖 于 局 部 图 像 特 性 而 变化 。 如 末 图 像 的 梯度 在 该 区 域 
变化 ， 那 么 ,的 第 二 个 特征 值 将 不 再 为 0。 如 琳 图 像 的 梯度 没有 变化 ， 和 ,的 特征 
值 也 不 会 变化 。 


取决 于 该 区 域 YI 的 值 ，Harris ÆRE 好 的 特征 值 有 三 种 情况 : 


。 WR A, FLA, 都 是 很 大 的 正 数 ， 则 该 x AAAA, 

© MAA RK, 和 = 0， 则 该 区 域内 存在 一 个 边 ， 该 区 域内 的 平均 M, 的 特征 值 不 
会 变化 大 大 ， 

。 WR A =A. ~0, KA AZ. 





在 不 需要 实际 计算 特征 值 的 情况 下 ， 为 了 把 重要 的 情况 和 其 他 情况 分 开 ，Harris 和 
Stephens 在 文献 [12] 中 引入 了 指示 函数 : 





det(M 1) — K trace (M7? 
Ay SABRC A ac, RANA AY EF PR : 


det (M:) 
trace (M 1)’ 
(EATEN A o 


下 面 我 们 写 出 Harris 角 点 检测 程序 。 像 1.4.2 区 介绍 的 一 样 ， 对 于 这 个 函数 ， 我 们 
需要 使 用 scipy.ndimage.filters 模块 中 的 高 斯 导数 滤波 副 来 计算 导数 。 使 用 高 斯 渡 
波 如 的 道理 同样 是 ， 我 们 需要 在 角 扣 检测 过 程 中 抑制 电 声 强度 。 


首先 ， 将 角 点 啊 应 函数 添加 到 harris.py 文件 中 ,该 久 数 使 用 高 斯 导数 实现 。 同 样 
地 ， 参 数 o 定义 了 使 用 的 高 斯 滤波 如 的 尺度 大 小 。 你 也 可 以 修改 这 个 汕 数 ， 对 x 和 
y 方 同上 不 同 的 尺度 参数 ， 以 及 尝试 平均 操作 中 的 不 同 尺 度 ， 来 计算 Harris FER, 


from scipy.ndimage import filters 
def compute harris response(im,sigma=3): 


"在 一 幅 灰 度 图 像 中 ， 对 每 个 像素 计算 Harris 角 点 检测 器 响应 函数 """ 


# 计算 导数 

imx = zeros(im.shape) 

filters.gaussian filter(im, (sigma,sigma), (0,1), imx) 
imy = zeros(im.shape) 

filters.gaussian filter(im, (sigma,sigma), (1,0), imy) 





# 计算 Harris 矩阵 的 分 量 

Wxx = filters.gaussian filter(imx*imx,sigma) 
Wxy = filters.gaussian filter(imx*imy,sigma) 
Wyy = filters.gaussian filter(imy*imy,sigma) 


# 计算 特征 值 和 迹 
Wdet = Wxx*Wyy - Wxy**2 
Wtr = Wxx + Wyy 


return Wdet / Wtr 


上 面 的 国 数 会 返回 像素 值 为 Harris 响应 函数 值 的 一 幅 图 像 。 现 在 ， 我 们 需要 从 这 幅 
图 像 中 挑选 出 需要 的 信息 。 然 后 ， 选 取 像 素 值 高 于 羡 值 的 所 有 图 像 点 ， 再 加 上 额外 
的 限制 ， 即 角 点 之 则 的 间隔 必须 大 于 设 定 的 最 小 距离 。 这 种 方法 会 产生 很 好 的 角 点 
检测 结 末 。 为 了 实现 该 算法 ， 我 们 获取 所 有 的 候选 像素 点 ， 以 角 点 啊 应 值 递减 的 顺 
序 排序 ， 然 后 将 距离 已 标记 为 角 点 位 置 过 近 的 区 域 从 候选 像素 后 中 删除 。 将 下 面 的 
FAVS INE harris.py 文件 中 : 











i ge harris points(harrisim,min dist=10, threshold=0.1): 
" 从 一 幅 Harris 啊 应 图 像 中 返回 角 点 。min dist 为 分 割 角 点 和 图 像 边界 的 最 少 像素 数目 " 





# 寻找 高 于 国 值 的 候选 角 点 
corner threshold = harrisim.max() * threshold 
harrisim t = (harrisim > corner threshold) * 1 


# 得 到 候选 点 的 坐标 


coords = array(harrisim t.nonzero()).T 


# 以 及 它们 的 Harris 啊 应 值 


candidate values = [harrisim[c[0],c[1]] for c in coords] 


# 对 候选 点 按照 Harris 响应 值 进行 排序 


index = argsort(candidate values) 


# 将 可 行 点 的 位 置 保存 到 数组 中 
allowed locations = zeros(harrisim. shape) 
allowed locations[min dist:-min dist,min dist:-min dist] = 1 


# 按照 min distance 原则 ， 选 择 最 佳 Harris 点 
filtered coords = [| 
for i in index: 
if allowed locations[coords[i,O],coords[i,1]] == 1: 
filtered coords.append(coords|i]) 
allowed locations| (coords[i,0]-min_dist):(coords[i,O]+min dist), 
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(coords[i,1]-min dist):(coords[i,1|]+min dist)] = 
return filtered coords 


MERA TEMER F FAA ris SET A AZ. AY SRA RP AY A PR AT AE 
用 Matplotlib 模块 绘制 函 数 ， 将 其 添加 到 harris.py 文件 中 ， 如 下 : 


def plot harris points(image, filtered coords): 


绘制 图 像 中 检测 到 的 角 点 """ 


figure() 

gray() 

imshow(image) 

plot([p[1] for p in filtered coords], [p[0o] for p in filtered coords], '*') 
axis('off') 

show() 


试 着 运行 下 面 的 命令 


im = array(Image.open('empire.jpg').convert('L')) 
harrisim = harris.compute harris response(im) 

filtered coords = harris.get_ harris points(harrisim,6) 
harris.plot_ harris points(im, filtered coords) 


首 完 ， 打 开 该 图 像 ， 转 换 成 灰 度 图 像 。 然 后 ， 计 算 啊 应 函数 ， 基 于 啊 应 值 选 择 角 点。 
最 后 ， 在 原始 图 像 中 覆盖 绘制 检测 出 的 角 上 把 。 绘 制 出 的 结 末 图 像 如 图 2-1 所 示 。 








(a) 











图 2-1: 使 用 Harris 角 点 检测 器 检测 角 点 : (a) X Harris 响应 函数 ，(b-d) 分 别 为 使 用 靖 值 
0.01. 0.05 和 0.1 检测 出 的 角 点 


如 东 你 想 概 要 了 解 角 点 检测 的 不 同方 法 ， 包 括 Harris 角 点 检测 粥 的 改进 和 进一步 的 
开发 应 用 ， 可 以 查找 资源 ， 如 网 站 http://en.wikipedia.org/wiki/Corner_detection, 





Fe A el) ST DY A 

Harris 角 点 检测 器 仅仅 能 够 检测 出 图 像 中 的 兴趣 点 ， 但 是 没有 给 出 通过 比较 图 像 间 
的 兴趣 点 来 寻找 匹配 角 点 的 方法 。 我 们 需要 在 每 个 点 上 加 入 描述 子 信息 ， 并 给 出 一 
个 比较 这 些 描述 子 的 方法 。 











兴趣 点 描述 子 征 分 配给 兴趣 点 的 一 个 同 量 ， 摘 述 该 点 附近 的 图 像 的 表 观 信息 。 摘 述 
子 越 好 ， 寻 找到 的 对 应 挟 越 好 。 我 们 用 对 应 点 或 者 点 的 对 应 来 招 述 相同 物体 和 场景 
扩 在 不 同 图 像 上 形成 的 像素 所 。 


Harris 角 扩 的 接 述 子 通 第 是 由 周围 图 像 像素 块 的 灰 度 值 ， 以 及 用 于 比较 的 归 一 化 互 
相关 和 窍 阵 构 成 的 。 图 像 的 像素 块 由 以 该 像素 点 为 中 心 的 周围 矩形 部 分 图 像 构 成 。 


通常 ， 两 个 (相同 大 小 ) 像素 块 (x) FH L(x) 的 相关 给 阵 定 义 为 : 








c(h, h) = > A(x), b(x)) 





其 中 ， 函 数 f 随 着 相关 方法 的 变化 而 变化 。 上 式 取 像 素 块 中 所 有 像素 位 置 x 的 和 。 
对 于 互相 关 算 阵 ， Ee ax AU, I=L, K E, c(i, T= 人 其 中 表示 问 量 乘法 
(按照 行 或 者 列 堆积 的 像素 )。cCi ， 厂 ) 的 值 越 大 ， 像 素 块 石 和 五 的 相似 度 越 高 。 


归 一 化 的 互相 关 惩 阵 古 互相 关 和 矩阵 的 一 种 变形 ， 可 以 定义 为 : 








neh, DD) = 1 Y EO ee) 


=) - (2.3) 


其 中 , n ARERR RAAT, u A 表示 每 个 像素 块 中 的 平均 像素 值 强 度 ，o 
和 o 分 别 表示 每 个 像素 块 中 的 标准 差 。 通 过 减 去 均值 和 除 以 标准 差 ， 该 方法 对 图 像 
亮度 变化 具有 稳健 性 。 


为 狭 取 图 像 像 素 块 ， 并 使 用 归 一 化 的 互相 关 息 阵 来 比较 它们 ， 你 需要 另外 两 个 国 数 。 
将 它们 添加 到 harris.py 文件 中 : 





def get_descriptors(image, filtered coords,wid=5): 
""" 对 于 每 个 返回 的 点 ， 返 回 点 周围 2*wid+1 个 像素 的 值 〈 假 设 选取 点 的 min distance > wid) """ 


desc = | 


for coords in filtered coords: 
patch = image[coords[0]-wid:coords|[0 ]+wid+1, 


HE 1: 另 一 个 常用 的 函数 是 X7,DD=(C-D)， 该 函数 表示 平方 差 的 和 (Sum of Squared Difference, SSD), 
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coords|1]-wid:coords[1]+wid+1].flatten() 
desc.append(patch) 


return desc 


def match(desci,desc2, threshold=0.5): 
"" SPs URE As, EMAER, ee EES I eC "”" 


n = len(desc1[0]) 


# 点 对 的 距离 

d = -ones((len(desc1), len(desc2))) 

for i in range(len(desc1)): 

for j in range(len(desc2)): 
d1 = (desci[i] - mean(desci[i])) / std(desc1[i]) 
d2 = (desc2[j] - mean(desc2[j])) / std(desc2[j]) 
ncc_ value = sum(d1 * d2) / (n-1) 
if ncc_value > threshold: 
d[i,j] = ncc_value 


ndx = argsort(-d) 
matchscores = ndx[:,0] 


return matchscores 


第 一 个 国 数 的 参数 为 奇数 大 小 长 度 的 方形 灰 度 图 像 块 ， 该 图 像 块 的 中 心 为 处 理 的 像 
素 点 。 该 国 数 将 图 像 块 像素 值 压 平成 一 个 同 量 ， 然 后 添加 到 描述 子 列表 中 。 第 二 个 
国 数 使 用 归 一 化 的 互相 关 和 矩阵 ， 将 每 个 描述 子 匹配 到 另 一 个 图 像 中 的 最 优 的 候选 氮 。 
由 于 数值 较 高 的 距离 代表 两 个 点 能 够 更 好 地 匹配 ， 所 以 在 排序 之 前 ， 我 们 对 距离 取 
相反 数 。 为 了 获得 更 稳定 的 匹配 ， 我 们 从 第 二 幅 图 像 癌 第 一 幅 图 像 匹 配 ， 然 后 过 渡 
掉 在 两 种 方法 中 不 都 是 最 好 的 匹配 。 下 面 的 函数 可 以 实现 该 操作 : 





def match twosided(desc1,desc2, threshold=0.5): 
Wir 两 边 对 称 版 本 的 match ( ) Wu 


matches 12 = match(desc1,desc2, threshold) 
matches 21 = match(desc2,desc1, threshold) 


ndx 12 = where(matches 12 >= 0)[0] 


# 去 除非 对 称 的 匹配 
FOr. nin nox 12% 
if matches 21[matches 12[n]] != n: 
matches 12[n] = -1 





return matches 12 


JX PE PE BC AY LA ah ack E A ad a ll A h RR, (E H 2k Boe E F DE AY RR SE e 
可 视 人 化。 下面 的 代码 可 以 实现 匹配 点 的 可 视 化 。 将 这 两 个 函数 添加 到 harris.py X 
fA 


def appendimages(im1, im2) : 


""" 返回 将 两 幅 图 像 并 排 拼 接 成 的 一 幅 新 图 像 """ 








# 选取 具有 最 少 行 数 的 图 像 ， 然 后 填充 足够 的 空 行 
rows1 = im1.shape[0]| 
rows2 = im2.shape[0]| 


if rows1 < rows2: 

im1 = concatenate((im1,zeros((rows2-rows1, im1.shape[1]))),axis=0) 
elif rows1 > rows2: 

im2 = concatenate((im2,zeros((rows1-rows2, im2.shape[1]))),axis=0) 


# 如 果 这 些 情况 都 没有 ， 那 么 它们 的 行 数 相同 ， 不 需要 进行 填充 





return concatenate( (im1,im2), axis=1) 


def plot matches(im1,im2,1ocs1,1ocs2,matchscores, show below=True): 
""" 显示 一 幅 带 有 连接 匹配 之 则 连 线 的 图 片 
输入 : im1，im2 (数组 图 像 )，locs1，locs2 (特征 位 置 )，matchscores (match() 的 输出 )， 
show below (如 果 图 像 应 该 显示 在 匹配 的 下 方 ) """ 








im3 = appendimages(im1, im2 ) 
if show below: 
im3 = vstack((im3, im3) ) 


imshow(im3 ) 


cols1 = im1.shape[1] 
for i,m in enumerate(matchscores): 
if m>0: 
plot({locs1[i][1],locs2[m][1]+cols1],[locs1[i][0],locs2[m][o]],'c') 
axis off) 


图 2-2 为 使 用 归 一 化 的 互相 关 和 矩阵 (在 这 个 例子 中 ， 每 个 像素 块 的 大 小 为 11 x 11) 
来 寻找 对 应 点 的 例子 。 该 图 像 可 以 通过 下 面 的 命令 实现 : 
wid = 5 


harrisim = harris.compute harris response(im1,5) 
filtered coords1 = harris.get harris points(harrisim,wid+1) 
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di = harris.get_descriptors(im1, filtered coords1,wid) 


harrisim = harris.compute harris response(im2,5) 
filtered coords2 = harris.get harris points(harrisim,wid+1) 
d2 = harris.get_descriptors(im2,filtered_ coords2,wid) 


print ‘starting matching’ 
matches = harris.match twosided(d1,d2) 


figure() 

gray() 
harris.plot_matches(im1,im2,filtered coordsi,filtered coords2,matches) 
show( ) 























为 了 看 得 更 清楚 ， 你 可 以 画 出 匹配 的 子 集 。 在 上 面 的 代码 中 ， 可 以 通过 将 数组 
matches $ ft ak, matches[:100] 或 者 任意 子 集 来 实现 。 





如 图 2-2 所 示 ， 该 算法 的 结 来 存在 一 些 不 正确 匹配 。 这 是 因为 ， 与 现代 的 一 些 方法 
FALE, ARR SREY AIRERA BSS TATE. Seb AH, RENER GE A 
稳健 的 方法 来 处 理 这 些 对 应 匹配 。 这 些 搬 述 符 还 有 一 个 问题 ， 它 们 不 具有 尺度 不 变 
性 和 旋转 不 变性 ， 而 算法 中 像素 块 的 大 小 也 会 影响 对 应 匹配 的 结 采 。 


近年 来 诞生 了 很 多 用 来 提高 特征 点 检测 和 描述 性 能 的 方法 。 在 下 一 玫 中 ， 我 们 来 学 
习 其 中 最 好 的 一 种 算法 。 


2.2 SIFT 《尺度 不 变 特征 变换 ) 


David Lowe 在 文献 [17] 中 提出 的 SIFT (Scale-Invariant Feature Transform， 尺 度 不 
变 特 征 变换 ) 征 过 去 十 年 中 最 成 功 的 图 像 局 部 描述 子 之 一 。SIFT 特征 后 来 在 文献 
[18] 中 得 到 精炼 并 详 述 ， 经 受 住 了 时 间 的 考验 。SIFT 特征 包括 兴趣 点 检测 如 和 摘 述 
T. SIFT 插 述 子 具有 非 第 强 的 稳健 性 ， 这 在 很 大 程度 上 也 是 SIFT 特征 能 够 成 功 和 
流行 的 主要 原因 。 目 从 SIFT 特征 的 出 现 ， 许 多 其 他 本 质 上 使 用 相同 描述 子 的 方法 
也 相继 出 现 。 现 在 ，SIFT 描述 符 经 常 和 许多 不 同 的 兴趣 点 检测 左 相 结合 使 用 《有 些 
情况 下 是 区 域 检 测 左 ) ， 有 时 甚至 在 整 幅 图 像 上 密集 地 使 用 。SIFT 特征 对 于 尺度 、 
旋转 和 亮度 都 具有 不 变性 ， 因 此 ， 它 可 以 用 于 三 维 视角 和 噪声 的 可 乱 匹 配 。 你 可 以 
在 http://en.wikipedia.org/wiki/Scale-invariant_feature_transform 获得 SIFT 特征 的 位 
要 介绍 。 














2.2.1 兴趣 点 
SIFT 特征 使 用 高 斯 差分 函数 来 定位 兴趣 点 : 





D(X,0)=[G,.(X)—G,(X) LLG, Gh, 


RA, G 是 上 一 章 中 介绍 的 二 维 高 斯 核 , 五 是 使 用 G, 模糊 的 灰 度 图 像 ，x 是 决定 相 
EREITEA FoR Re TER RL AR Ee (EP D(x,o) We AAA MA. HE 
Wet he ABI ABR A el EA. AE BEEN, EECA ROT E Ee Fa EY 
扎 不 征 兴趣 点 ， 我 们 可 以 去 除 一 些 候选 兴趣 点 。 你 可 以 参考 文献 [17, 18] 了 解 更 多 。 








2.2.2 WET 
上 面 讨论 的 兴趣 点 (关键 点 ) 位 置 描述 子 给 出 了 兴趣 点 的 位 置 和 尺度 信息 。 为 了 实 
现 旋 转 不 变性 ， 基 于 每 个 点 周围 图 像 梯度 的 方向 和 大 小 ，SIFT 描述 子 又 引入 了 人 参 芳 
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HH. SIFT 描述 子 使 用 主 方 同 描述 参考 方 同 。 主 方 癌 使 用 方 癌 直方 图 (以 大 小 为 权 
重 ) 来 度量 。 


下 面 我 们 基于 人 位置、 尺度 和 方 问 信息 来 计算 拉 述 子 。 为 了 对 图 像 亮度 具有 稳健 性 ， 
SIFT 描述 子 使 用 图 像 梯度 (之 前 Harris 描述 子 使 用 图 像 亮 度 信息 计算 归 一 化 互相 关 
IERE). SIFT 描述 子 在 每 个 像素 点 附近 选取 子 区 域 网 格 ， 在 每 个 子 区 域内 计算 图 像 
梯度 方 问 直方 图 。 每 个 子 区 域 的 直方 图 拼接 起 来 组 成 描述 子 同 量 。SIEFT 描述 子 的 标 
准 设置 使 用 4x4 的 子 区 域 ， 每 个 子 区 域 使 用 8 个 小 区 间 的 方 同 直方 图 ,会 产生 共 
128 个 小 区 间 的 直方 图 (4x4x8=128)。 图 2-3 所 示 为 拉 述 子 的 构造 过 程 。 感 兴 
的 读者 可 以 参考 文献 [18] 获取 更 多 内 容 ， 或 者 从 http://en.wikipedia.org/wiki/Scale- 
invariant. feature_transform 概要 了 解 SIFT 特征 描述 子 。 














| ee ee ee ee 





(d) 











图 2-3: 构造 SIFT 描述 子 特征 向 量 的 图 解 : (a) 一 个 围绕 兴趣 点 的 网 格 结构 ， 其 中 该 网 格 已 
经 按照 梯度 主 万 向 进行 了 旋转 ; (b) 在 网 格 的 一 个 子 区 域内 构造 梯度 万 向 的 8-bin BB; (c) 
在 网 格 的 每 个 子 区 域内 提取 直方 图 ;(d) 拼接 直方 图 ， 得 到 一 个 长 的 特征 向 量 


2.2.3 检测 兴趣 点 

我 们 使 用 开源 工具 包 VLFeat 提供 的 二 进 制 文件 来 计算 图 像 的 SIFT 特征 [36]。 用 完 
整 的 Python 实现 SIFT 特征 的 所 有 步骤 可 能 效率 不 是 很 高 ， 并 且 超 出 了 本 书 的 泄 围 。 
VLFeat 工具 包 可 以 从 http://www.vlfeat.org/ 下载， 二进制 文件 可 以 在 所 有 主要 的 平 
台 上 运行 。VLFeat 库 是 用 C 语言 来 写 的 ， 但 是 我 们 可 以 使 用 该 库 提 供 的 命令 行 接 
口 。 如 果 你 认为 使 用 Matlab 接口 或 者 Python 包装 器 比 二 进 制 文件 更 方便 ， 可 以 从 
http://github.com/mmmikael/vlfeat/ 下 载 相 应 的 版 本 。 由 于 Python 包装 喜 对 平台 的 依 
RUPE, Zi Python 包装 絮 在 某 些 平台 上 需要 一 定 的 技巧 ， 所 以 我 们 这 里 使 用 二 进 制 





文件 版 本 。Lowe 的 个 人 网 站 上 也 有 SIFT 特征 的 实现 ， 可 以 参见 http://www.cs.ubc. 
ca/~lowe/keypoints/， 该 代码 仅 适 用 于 Windows 系统 和 Linux 系统 。 





创建 sift.py 文件 ， 将 下 面 调用 可 执行 文件 的 函数 添加 到 该 文件 中 : 


def process image(imagename,resultname,params="--edge-thresh 10 --peak-thresh 5"): 


""" 处理 一 幅 图 像 ， 然 后 将 结 末 保 存在 文件 中 "”" 





if imagename[-3:] != 'pgm': 
# 创建 一 个 pgm 文件 
im = Image.open(imagename).convert('L' ) 
im.save('tmp.pgm' ) 
imagename = 'tmp.pgm' 


cmmd = str("sift "+imagename+" --output="+resultname+ 
" "+params ) 

os.system(cmmd ) 

print ‘processed’, imagename, ‘to', resultname 


由 于 该 二 进 制 文件 需要 的 图 像 格 式 为 灰 度 .pgm， 所 以 如 琳 图 像 为 其 他 格式 ， 我 们 
需要 首先 将 其 转换 成 .pgm 格式 文件 。 转 换 的 结 来 以 易 读 的 格式 保存 在 文本 文件 中 。 
文本 文件 如 下 : 


oro0l JA82 T Md200L M08523 .000 Al 00000 A M00 sn 
310,001 ,7346227. 1.12001 2299965 11 2-00 Avo) 0-0 17307 050! wa 
54.2821 14.8586 0.895827 4.29821 60 4600000099 4200... 
155.714 23.0575 1.10741 1.54095 6 00 0 150 1100 150 1821... 
4239729 24201270909317 4A708892 90.29 0 00:1 2 -107945-5 IT ase. 
22903/237003 0921754- 1.48754. 3-000 TAT-3 O 0-141 45 O Uraa 
232.302 24:0091 1.0578 -1,05089 TI 10-16-1340 Q0- 106 21 T6 33 .2 
2545057 104879. 2.01064 10: 4A 1-8 142 1-988 13090) wy 


201.256 





上 面 数据 的 每 一 行 前 4 个 数值 依次 表示 兴趣 点 的 坐标 、 尺 度 和 方 加 角度， 后面 其 接 
着 的 是 对 应 接 述 符 的 128 维 癌 量 。 这 里 的 描述 子 使 用 原始 整数 数值 表示 ， 设 有 经 过 
归 一 化 处 理 。 当 你 需要 比较 这 些 摘 述 符 时 ， 要 做 一 些 处 理 。 更 多 的 内 容 请 匈 后 面 的 


介绍 。 
上 面 的 例子 显示 的 征 在 一 幅 图 像 中 前 8 个 特征 的 前 面部 分 数值 。 注 意 前 两 行 的 坐标 
值 相 同 ， 但 是 方向 不 同 。 当 同一 个 兴趣 点 上 出 现 不 同 的 显著 方 同 ， 这 种 情况 就 会 出 
现 的 。 


下 面 是 如 何 从 像 上 面 的 输出 文件 中 ， 将 特征 读 取 到 NumPy 数组 中 的 国 数 。 将 该 国 数 
添加 到 sift.py 文件 中 : 
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def read features from file(filename): 


""" 读 取 特征 属性 值 ， 然 后 将 其 以 矩阵 的 形式 返回 """ 


f = loadtxt(filename) 
return f[:,:4],f[:,4:] # 特征 位 置 ， 描 述 子 


在 上 和 面 的 函数 中 ， 我 们 使 用 NumpPy 库 中 的 loadtxt() 函数 来 处 理 所 有 的 工作 。 


QUE Python 会 话 中 修改 描 述 子 ， 你 需要 将 输出 结果 保存 到 特征 文件 中 。 下 面 的 函 
数 使 用 NumPy 库 中 的 savetxt() 国 数 ， 可 以 帮 你 实现 该 功能 : 





def write features to file(filename, locs,desc): 
…" 将 特征 位 置 和 描述 子 保存 到 文件 中 


savetxt (filename, hstack((locs,desc))) 


上 面 的 函数 使 用 了 hstack() PAC. 1% PRC BHAA TADS 17 BEE KAES 
个 向 量 的 功能 。 在 这 个 例子 中 ， 每 一 行 中 前 几 列 为 位 置信 息 ， 紧 接着 是 描述 子 。 


读 取 特征 后 ， 通 过 在 图 像 上 绘制 出 它们 的 位 置 ， 可 以 将 其 可 视 化 。 将 下 面 的 plot 
features() 国 数 添 加 到 sift.py 文件 中 ， 可 以 实现 该 功能 。 





def plot_features(im, locs,circle=False): 
""" 显示 市 有 特征 的 图 像 
输入 : im (数组 图 像 )，1ocs (每 个 特征 的 行 、 列 、 尺 度 和 方向 角度 )""" 


def draw circle(c,r): 
= arange( 0; 14015701) *2* 1 
x = Ir*cos(t) + c[o] 
y = r*sin(t) + c[1] 
plot(x,y,'b', lLinewidth=2) 


imshow(im) 
if circle: 
for p in locs: 
draw _circle(p[:2],p[2]) 
else: 
plot (loes|=,0|,ocs| aal ob") 
axis('off') 


该 函数 在 原始 图 像 上 使 用 蓝 色 的 圆圈 绘制 出 SIFT 特征 点 的 位 置 。 将 参数 circle 的 
选项 设置 为 True， 该 函数 将 使 用 draw circle() 国 数 绘制 出 圆圈 ， 圆 圈 的 半径 为 特 
征 的 尺度 。 





你 可 以 通过 下 面 的 命令 绘制 出 如 图 2-4b 中 SIFT 特征 位 置 的 图 像 : 





import sift 


imname = ‘empire.jpg' 

im1 = array(Image.open(imname).convert('L")) 
sift.process image(imname, 'empire.sift' ) 

11,d1 = sift.read features from file(‘empire.sift') 


figure() 


gray() 
sift.plot_features(im1,11,circle=True) 
show() 


为 了 比较 Harris 角 点 和 SIFT 特征 的 不 同 ， 右 图 (图 2-4c) 显示 的 是 同一 幅 图 像 的 
Harris 角 点 。 你 可 以 看 到 ， 两 个 算法 所 选择 特征 点 的 位 置 不 同 。 














2-4: 对 一 幅 图 像 提取 SIFT 特征 。(a) SIFT 特征 ; (b) 使 用 圆圈 表示 特征 尺度 的 SIFT 特征 ; 
(c) 为 了 比较 ， 对 于 同一 幅 图 像 提 取 Harris AR 


2.2.4 ”匹配 描述 子 

对 于 将 一 幅 图 像 中 的 特征 匹配 到 另 一 幅 图 像 的 特征 ， 一 种 稳健 的 准则 (同样 是 由 

Lowe 提出 的 ) 是 使 用 这 两 个 特征 距离 和 两 个 最 匹配 特征 距离 的 比率 。 相 比 于 图 像 

中 的 其 他 特征 ， 该 准则 保证 能 够 找到 足够 相似 的 唯一 特征 。 使 用 该 方法 可 以 使 错误 

的 匹配 数 降 低 。 下 面 的 代码 实现 了 匹配 函数 。 将 match() 函数 添加 到 sift.py 文件 中 : 
def match(desc1, desc2): 


""" 对 于 第 一 幅 图 像 中 的 每 个 描述 子 ， 选 取 其 在 第 二 幅 图 像 中 的 匹配 
输入 : desc1〈 第 一 幅 图 像 中 的 描述 子 )，desc2 (第 二 幅 图 像 中 的 描述 子 )""" 
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desc1 = array([d/linalg.norm(d) for d in desc1]) 
desc2 = array([d/linalg.norm(d) for d in desc2]) 


dist_ratio = 0.6 
desc1 size = desci.shape 


matchscores = zeros((desc1 size[0],1),'int') 
desc2t = desc2.T # 预先 计算 矩阵 转 置 
for i in range(desc1 size[0]): 
dotprods = dot(desci[i,:],desc2t) # 向 量 点 乘 
dotprods = 0.9999*dotprods 
E 反 余 嘴 和 反 排 序 ， 返 回 第 二 幅 图 像 中 特征 的 索引 


indx = argsort(arccos(dotprods) ) 








# 检查 最 近邻 的 角度 是 否 小 于 dist ratio 乘 以 第 二 近邻 的 角度 
if arccos(dotprods)[indxlojj dist ratio * arccos(dotprods)[indx[1]]: 
matchscores[i] = int(indx[0]) 


return matchscores 





iA PRB AE HE FT] TA AR PAE As ee, EZA, PA Be aS FU) a 
归 一 化 到 单位 长 度 。 因 为 这 种 匹配 是 单 向 的 ， 即 我 们 将 每 个 特征 向 另 一 幅 图 像 中 的 
所 有 特征 进行 匹配 ， 所 以 我 们 可 以 先 计 算 第 二 幅 图 像 兴 趣 点 描述 子 辐 量 的 转 置 矩阵 。 
这 样 ， 我 们 不 不 需要 对 每 个 特征 分 别 进 行 转 置 操作 。 


为 了 进一步 增加 匹配 的 稳健 性 ， 我 们 可 以 再 反 过 来 执行 一 次 该 步骤 ， 用 另外 的 方 
法 匹配 (从 第 二 幅 图 像 中 的 特征 向 第 一 幅 图 像 中 的 特征 匹配 )。 最 后 ， 我 们 仪 保留 
同时 满足 这 两 种 匹配 准则 的 对 应 (和 我 们 对 Harris 角 点 的 处 理 方法 相同 )。 下 面 的 
match twosided() 国 数 可 以 实现 该 操作 : 


def match twosided(desc1,desc2): 
"" 双向 对 称 版 本 的 match()""" 


matches 12 = match(desc1,desc2 ) 
matches 21 = match(desc2,desc1) 


ndx_12 = matches 12.nonzero()[0] 


# 去 除 不 对 称 的 匹配 
for n in ndx 12: 
if matches 21[int(matches 12[n])] != n: 
matches 12[n] = 0 


return matches 12 





TE 1: 对 于 单位 向 量 ， 向 量 乘 积 (不 使 用 arccos() 国 数 ) 等 价 于 标准 欧式 距离 度量 。 





| 人 大 大 
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为 了 绘制 出 这 些 匹 配点 ， 我 们 可 以 使 用 在 harris.py 用 到 的 相同 函数 。 方 便 起 见 ， 将 
appendimages() 国 数 和 plot_matches() 图 数 复制 过 来 。 然 后 ， 将 它们 添加 到 sift.py 
文件 中 。 如 果 你 喜欢 ， 也 可 以 通过 载 入 harris.py 来 使 用 这 两 个 函数 。 





2-5 和 图 2-6 是 在 图 像 对 中 检测 SIFT 特征 点 的 例子 ， 以 及 通过 match twosided() 
男 数 返回 的 特征 点 匹配 情况 。 











2-5: 在 两 幅 图 像 间 检测 和 匹配 SIFT 特征 
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2-6: 在 两 幅 图 像 间 检测 和 匹配 SIFT 特征 





2-7 是 在 两 幅 图 像 中 分 别 使 用 match() 国 数 和 match twosided() 函数 匹配 特征 的 男 
一 个 例子 。 正 如 你 所 看 到 的 一 样 ， 使 用 对 称 (两 思 ) 匹配 条 件 可 以 去 除 不 正确 的 匹 
配 ， 保 留 好 的 匹配 (一 些 正确 的 匹配 也 被 去 除了 )。 











图 2-7: 在 两 幅 图 像 间 匹 配 SIFT 特征 的 例子 : (a) 不 使 用 两 边 匹配 函数 ， 将 左边 图 像 中 的 特 
征 向 右边 图 像 中 的 特征 匹配 ，(b) 使 用 两 边 匹配 图 数 后 ， 剩 余 的 匹配 情 


通过 检测 和 匹配 特征 点 ， 我 们 可 以 将 这 些 局 部 描述 子 应 用 到 很 多 例子 中 。 为 了 稳健 
地 过 着 掉 这 些 不 正确 的 匹配 ， 接 下 来 的 两 个 章 贡 将 会 在 对 应 上 加 入 几何 学 的 约束 天 
系 ， 并 将 局 部 接 述 子 应 用 到 一 些 例 子 中 ， 比 如 自动 创建 全 景 图 、 照 相机 姿态 估计 以 
及 三 维 结构 计算 。 


2.3 ”匹配 地 理 标记 图 像 


我 们 将 通过 一 个 示例 应 用 来 结束 本 章 贡 。 在 这 个 例子 中 ， 我 们 使 用 局 部 摘 述 子 来 匹 
配 珊 有 地 理 标 记 的 图 像 。 


2.3.1 从 Panoramio 下 载 地 理 标记 图 像 

你 可 以 从 谷歌 提供 的 照片 共享 服务 Panoramio (http://www.panoramio.com/) 3k 
得 地 理 标 记 图 像 。 像 许多 网 络 资源 一 样 ，Panoramio 提供 一 个 API 接口 ， 方便 用 
户 使 用 程序 访问 这 些 内 容 。Panoramio 的 API JE% f% At, PÆ http://www. 
panoramio.com/api/ 上 找到 API 的 使 用 方式 。 你 可 以 通过 HTTP GET 方式 访问 网 址 
内 容 9 如 下 : 
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http://www. panoramio.com/map/get_panoramas.php?order=popularity&set=public& 
From=0&to=20&minx=-180&miny=- 90&maxx=1808maxy=908s ize=medium 


其 中 的 minx, miny, maxx 和 maxy 定义 了 选取 照片 的 地 理 区 域 位 置 (分 别 表 示 最 
小 经 度 、 最 小 纬度 、 最 大 经 度 和 最 大 纬度 )， 你 会 得 到 可 以 人 简单 解析 的 JSON 格式 的 
Mey, JSON 是 用 于 网 络 服务 间 数 据 传输 的 常用 格式 ， 比 XML 和 其 他 格式 更 轻便 。 
你 可 以 从 http://en.wikipedia.org/wiki/JSON 获取 更 多 关于 ISON 的 内 容 。 


你 可 以 使 用 两 个 不 同 的 视 氮 来 看 华盛顿 日 宫 的 位 阐 ， 通 毅 从 袜 夕 法 尼 亚 大 街 曾 侧 扫 
摄 ， 或 者 从 北 侧 拍摄 。 其 坐标 〈 纬 度 、 经 度 ) 如 下 : 


1t=38.897661 
In=-77.036564 


为 了 转换 成 API 调用 需要 的 格式 ， 需 要 在 这 些 坐 标 值 上 减 去 或 者 加 上 一 个 数值 ,来 
歼 得 以 白宫 为 中 心 的 正方 形 范 围 内 的 所 有 图 像 。 调 用 如 下 : 








http://www. panoramio.com/map/get_panoramas.php?order=popularity&set=public& 
Ffrom=0&to=20&minx=-77.037564&miny=38 .896662&maxx=- 77 .0355648maxy=38 . 8986628 
Size=medium 


该 调用 返回 在 坐标 边界 内 (40.001) 的 前 20 幅 图 像 ， 这 些 图 像 按照 用 户 访 问 情况 
排序 。 调 用 的 响应 格式 如 下 : 


{ "count": 349, 

"photos": [{"photo id": 7715073, "photo title": "White House", "photo url": 
"http: //www.panoramio.com/photo/7715073", "photo file url": 

"http: //mw2.google.com/mw-panoramio/photos/medium/7715073.jpg', "longitude": 
-77.036583, "latitude": 38.897488, "width": 500, "height": 375, "upload date": 
"10 February 2008", “owner id": 1213603, “owner name": "***", “owner url": 
"http://www. panoramio.com/user/1213603" } 

{"photo_id": 1303971, "photo title": "White House balcony", "photo url": 
"http://www. panoramio.com/photo/1303971", “photo file url": 

"http: //mw2.google.com/mw-panoramio/photos/medium/1303971. jpg", "longitude": 
-77.036353, "latitude": 38.897471, "width": 500, "height": 336, "upload date": 
"13 March 2007", “owner id": 195000, “owner name": "***", “owner url": 
"http://www. panoramio.com/user/195000" } 


}} 
为 了 解析 这 个 JSON 格式 的 响应 ， 我 们 可 以 使 用 simplejson 工具 包 ， 可 以 从 http:// 
github.com/simplejson/simplejson 下 载 。 在 项 目 界 面 上 ， 可 以 看 到 在 线 的 说 明文 档 。 





如 采 你 使 用 的 Python 是 2.6 或 之 后 的 版 本 ， 因 为 在 这 些 后 来 版 本 中 已 经 包含 JSON 
库 ， 所 以 不 需要 使 用 simplejson 工具 包 。 如 果 想 使 用 内 置 的 JSON 库 ， 你 只 需要 像 
ES ABN AY : 


import json 


如 果 你 想 使 用 上 面 链接 中 的 simplejson 工具 包 《速度 很 快 ， 并 且 比 内 置 包含 更 新 的 
内 容 ) ， 一 个 非常 好 的 办 法 是 使 用 可 靠 的 方式 导入 它 ， 如 下 : 


try: import simplejson as json 
except ImportError: import json 


下 面 的 代码 将 使 用 Python 里 的 urllib 工具 包 来 处 理 请 求 ， 然 后 使 用 simplejson T 
有 具 包 解析 返回 结 东 : 


import os 
import urllib, urlparse 
import simplejson as json 


# 查询 图 像 

url = ‘http://www.panoramio.com/map/get_panoramas.php?order=popularity&\ 
set=public&from=08to=20&minx=- 77 .037564&miny=38 . 8966628\ 
Maxx=-77.035564maxy=38.898662%size=medium' 

c = urllib.urlopen(url) 


# 从 ISON 中 获得 每 个 图 像 的 url 

j = json.loads(c.read()) 

MULLS = f] 

for im in j[ photos]: 
imurls.append(im['photo file url']) 


# 下 载 图 像 

for url in imurls: 
image = urllib.URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url).path) ) 
print ‘downloading:', url 


通过 ISON 的 输出 可 以 看 到 ， 我 们 需要 的 是 photo file url 字段。 运行 上 面 的 代码 ， 
在 控制 侣 上 你 应 该 能 够 看 到 类 似 下 面 的 数据 : 





downloading: http://mw2.google.com/mw-panoramio/photos/medium/7715073. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/1303971. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/270077. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/15502. jpg 
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2-8 是 本 例子 中 返回 的 20 幅 图 像 。 接 下 来 ， 我 们 仅仅 需要 找到 并 匹配 这 些 图 像 对 
之 间 的 特征 。 





ROME n 
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ATOR he cae 
Wn 


tt 














2-8: 从 panoramio.com 下 载 的 在 同一 个 地 理 位 置 点 (以 白宫 为 中 心 的 方形 区 域 ) 上 拍摄 
的 图 像 


2.3.2 ”使 用 局 部 描述 子 匹 配 
我 们 刚才 已 经 下 载 了 这 些 图 像 ， 下 面 需要 对 这 些 图 像 提 取 局 部 描述 子 。 在 这 种 情 
况 下 ， 我 们 将 使 用 前 面部 分 讲述 的 SIFT 特征 描述 子 。 我 们 假设 已 经 对 这 些 图 像 使 
用 SIFT 特征 提取 代码 进行 了 处 理 ， 并 且 将 特征 保存 在 和 图 像 同 名 〈 但 文件 名 后 组 
是 sift, MAA jpg) 的 文件 中 。 假 设 imlist 和 featlist 列表 中 包含 这 些 文件 名 。 
我 们 可 以 对 所 有 组 合 图 像 对 进行 逐个 匹配 ， 如 下 : 

import sift 

nbr images = len(imlist) 

matchscores = zeros((nbr images,nbr images)) 


for i in range(nbr images): 
for j in range(i,nbr images): # 仅仅 计算 上 三 角 





print ‘comparing ', imlist[i], imlist[j] 


11,d1 = sift.read features from file(featlist[i]) 
12,d2 = sift.read features from file(featlist[j]) 


matches = sift.match twosided(d1, d2) 
nbr matches = sum(matches > 0) 


print ‘number of matches = ', nbr matches 
matchscores[i,j] = nbr matches 


# 复制 值 


for 


i in range(nbr images): 


for j in range(i+1,nbr images): # 不 需要 复制 对 角 线 


matchscores[j,i] = matchscores[i,j] 


我 们 将 每 对 图 像 间 的 匹配 特征 数 保存 在 matchscores 数组 中 。 因 为 该 “距离 度量 ”是 


对 称 的 ， 所 以 我 们 可 以 不 在 代码 的 最 后 部 分 复制 数值 ， 来 将 matchscores EEATT E 
ae, 填充 完整 后 的 matchscores EREA ERKE. AER E BRAI matchscores 
和 矩阵 里 的 数值 如 下 : 

oe oo 2903 O49 ROD 

0901010001100100000012 

0026600000000001000000 

D4 OMA 1-002 21000 2 a ho 6 

00001748001000002000001 

00000174700100000000110 

oo 0:0 555.0 00 1.040 90:0: 5. 1/0 

04 0:2 400 22060 00 1.06262 04 4 

11000100 6290000000100 20 

000000000 8290010000002 

0000001000 1028000001110 

11020041000 528521503600 

250020: E 0 12025 736 ,lo 3°37 40 

0010200000021 620100100 

3000002100015 41 55306910 

000000000000000 22730100 


19) 0:0 2°50-0° 0:2. 1-0 535 3:06, 0 542 000 


1 0 
O 1 
2 2 


4 
0201110010101003 1139 0 
001001202000000000 499 


使 用 该 matchscores 和 矩阵 作为 图 像 间 人 简单 的 距离 度量 方式 (具有 相似 内 容 的 图 像 
间 拥 有 更 多 的 匹配 特征 数 )， 下 面 我 们 可 以 使 用 相似 的 视觉 内 容 来 将 这 些 图 像 连 接 


起 来 。 
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2.3.3 可视化 连接 的 图 像 

我 们 首先 通过 图 像 间 是 否 具 有 匹配 的 局 部 描述 子 来 定义 图 像 间 的 连接 ， 然 后 可 视 化 
这 些 连 接 情况 。 为 了 完成 可 视 化 ， 我 们 可 以 在 图 中 显示 这 些 图 像 ， 图 的 边 代 表 连 接 。 
我 们 将 会 使 用 pydot 工具 包 (http://code.google.com/p/pydot/), 该 工具 包 是 功能 强 
大 的 GraphViz 图 形 库 的 Python 接口。Pydot 使 用 Pyparsing (http://pyparsing.wiki 
spaces.com/) 和 GraphViz (http://www.graphviz.org/) ; 不 用 担心 ， 这 些 都 非常 容 
YR, ARE ILA Bt TORK 


Pydot 韭 党 容易 使 用 。 下 面 的 一 小 段 代 码 很 好 地 展示 了 这 一 点 。 该 代码 会 创建 一 个 
， 该 图 表示 深度 为 2 的 树 ， 具 有 5 个 分 支 ， 将 分 支 的 编号 添加 到 分 支 拉 后 上 。 
的 结构 如 图 2-9 所 示 。 我 们 有 很 多 方法 来 修改 图 的 布局 和 外 观 。 如 果 你 想 了 解 更 多 
内 容 ， 可 以 查看 Pydot 的 说 明文 档 ， 或 者 在 http://www.graphviz.org/Documentation. 
php 查看 GraphViz 使 用 的 DOT 语言 介绍 。 











import pydot 
g = pydot.Dot(graph type='graph') 


g.add node(pydot.Node(str(0), fontcolor='transparent' )) 
for i in range(5): 
g.add_node(pydot.Node(str(i+1) )) 
g.add edge(pydot.Edge(str(0),str(it+1))) 
for j in range(5): 
g.add node(pydot .Node(str(j+1)+'-'+str(i+1) )) 
g.add edge(pydot.Edge(str(j+1)+'-'+str(i+1),str(j+1))) 
g.write png('graph.jpg' ,prog='neato' ) 

















我 们 接 下 来 继续 探讨 地 理 标记 图 像 处 理 的 例子 。 为 了 创建 显示 可 能 图 像 组 的 图 ， 如 
本 匹 配 的 数目 高 于 一 个 国 值 ， 我 们 使 用 边 来 连接 相应 的 图 像 贡 点 。 为 了 得 到 图 中 的 
图 像 ， 需 要 使 用 图 像 的 全 路 径 〈 在 下 面 例子 中 ， 使 用 path 变量 表示 )。 为 了 使 图 像 
看 起 来 课 亮 ， 我 们 需要 将 每 幅 图 像 尺 度 化 为 缩 略图 形式 ， 缩 略图 的 最 大 边 为 100 像 
素 。 下 面 征 具 体 实 现代 码 : 











import pydot 
threshold = 2 # 创建 关联 需要 的 最 小 匹配 数目 


g = pydot.Dot(graph type='graph') # 不 使 用 默认 的 有 向 图 
for i in range(nbr_images): 
for j in range(i+1,nbr_images): 
if matchscores[i,j] > threshold: 
E 图 像 对 中 的 第 一 幅 图 像 
im = Image.open(imlist[i]) 
im. thumbnail ((100, 100) ) 
filename = str(i)+'.png' 
im.save(filename) # 需要 一 定 大 小 的 临时 文件 
g.add node(pydot.Node(str(i), fontcolor='transparent' , 
shape='rectangle' , image=path+filename) ) 


# 图 像 对 中 的 第 二 幅 图 像 

im = Image.open(imlist[j]) 

im. thumbnail((100, 100) ) 

filename = str(j)+'.png' 

im.save(filename) # 需要 一 定 大 小 的 临时 文件 

g.add node(pydot.Node(str(j), fontcolor='transparent', 
shape='rectangle' , image=path+filename) ) 


g.add edge(pydot.Edge(str(i),str(j))) 
g.write png('whitehouse.png' ) 


Rabie fr ae AANA 2-10 Bras. ARAYA PRA A a RP aE EK 
特定 的 例子 ， 我 们 使 用 两 组 图 像 ， 每 组 分 别 古 两 个 视角 的 日 宫 图 像 。 


这 个 应 用 是 使 用 局 部 描述 子 来 匹配 图 像 间 区 域 的 一 个 简单 例子 。 在 该 应 用 中 ， 我 们 
没有 使 用 针对 任何 匹配 的 限制 约束 。 匹 配 的 约束 〈 具 有 很 强 的 稳健 性 ) 可 以 通过 接 
下 来 两 草 中 的 内 容 来 实现 。 
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2-10: 使 用 局 部 描述 子 将 在 同一 地 理 位 置 点 拍摄 图 像 进行 分 类 


练习 


(1) 为 了 让 匹配 具有 更 强 的 稳健 性 ， 修 改 用 于 匹配 Harris 角 点 的 国 数 ， 使 其 输入 参 
数 中 包含 认为 两 点 存在 对 应 关系 允许 的 最 大 像素 距离 。 

(2) 对 一 幅 图 像 不 断 地 应 用 模糊 操作 (或 者 ROF 去 品 ) ， 使 得 模糊 效 末 越 来 越 强 ， 然 
后 提取 Harris 角 点 ， 会 出 现 什么 问题 ? 











邮 


(3) 另 一 种 Harris A AM as ze RK AA el at. AIR BRR fA a a AY SEL 
法 ， 包 括 纯 Python 语言 实现 的 版 本 ， 可 以 在 http://www.edwardrosten.com/work/ 
fast.html 下载。 尝试 使 用 该 检测 强 ， 使 用 敏感 性 的 国 值 ， 然 后 将 结果 和 Harris 角 
Fa For Ol as FeO OY) FR LER 

(4) AA fel 7 HES OE ARE IAS (例如 ， 可 以 尝试 多 次 将 图 像 的 尺寸 减 半 )。 
对 每 幅 图 像 提 取 SIFT 特征 。 绘 制 以 及 匹配 特征 ， 来 发 现 尺 度 的 独立 性 是 如 何以 
及 何 时 失效 的 。 

(5) VLFeat 命令 行 工 具 同 样 实现 了 最 大 稳定 极 值 区 域 (MSER,， http://en.wikipedia. 
org/wiki/Maximally_stable_extremal_regions) 算法 。 该 算法 是 个 能 够 找到 角 
点 一 侧 区 域 的 区 域 检 测 强 。 创 建 一 个 用 于 提取 MSER 区 域 的 函数 ， 然 后 使 用 
-read-frames 选项 将 它们 传递 给 SIFT 特征 描述 子 部 分 ， 最 后 写 出 一 个 用 于 绘制 
该 区 域 边 界 的 国 数 。 

(6) 基于 对 应 关系 ， 写 出 在 图 像 对 间 匹 配 特 征 的 国 数 ， 以 实现 估计 尺度 差异 以 及 场景 
的 平面 旋转 。 

(7) 任意 选取 一 个 位 置 ， 然 后 下 载 该 位 置 的 图 像 ， 像 白 言 例子 一 样 将 它们 匹配 起 来 。 
你 能 发 现 用 于 连接 这 些 图 像 的 更 好 方式 吗 ? 你 是 如 何 利 用 图 来 选取 用 于 地 理 位 置 
具有 代表 性 的 图 像 的 ? 
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图 像 到 图 像 的 映射 





本 半 讲 解 图 像 之 间 的 变换 ， 以 及 一 些 计 算 变 换 的 实用 方法 。 这 些 变 换 可 以 用 于 图 像 
扭曲 变形 和 图 像 配 准 。 最 后 ， 我 们 将 会 介绍 一 个 目 动 创建 全 景 图像 的 例子 。 


3.1 里 应 性 变换 


单 应 性 变换 是 将 一 个 平面 内 的 点 上 映射 到 田 一 个 平面 内 的 二 维 投影 变换 。 在 这 里 ， 平 
面 是 指 图 像 或 者 三 维 中 的 平面 表面 。 单 应 性 变换 具有 很 剖 的 实用 性 ， 比 如 图 像 配 准 、 
图 像 纠 正和 纹理 扭曲 ， 以 及 创建 全 景 图 像 。 我 们 将 频 葵 地 使 用 单 应 性 变换 。 本 质 上 ， 
单 应 性 变换 及， 按照 下 面 的 方程 映射 二 维 中 的 点 〈 齐 次 坐标 意义 下 ) : 





/ 
X 








hi hy hy X 
y = ha h; he y 或 x’ — Hx 
w h hs ho WwW 














对 于 图 像 平面 内 (其 至 是 三 维 中 的 点 ， 后 面 我 们 会 介绍 到 ) WR, FRE 
标 是 个 非常 有 用 的 表示 方式 。 点 的 齐 次 坐标 是 依赖 于 其 尺度 定义 的 ， 所 以 ， 
x=[x,y,w]=[ax,ay,aw]=[x/w,y/w, 1] 都 表示 同一 个 三 维 点 。 因 此 ， 单 应 性 矩阵 五 也 仪 
依赖 尺度 定义 ， 所 以 ， 单 应 性 和 矩阵 具有 8 个 独立 的 自由 度 。 我 们 通常 使 用 w=1 来 归 
一 化 点 ， 这 样 ， 点 具有 唯一 的 图 像 坐标 x 和 y。 这 个 额外 的 坐标 使 得 我 们 可 以 简单 
地 使 用 一 个 矩阵 来 表示 变换 。 


创建 homography.py 文件 。 下 面 的 函数 可 以 实现 对 点 进行 归 一 化 和 转换 齐 次 坐标 的 
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功能 ， 将 其 添加 到 homography.py 文件 中 : 


def normalize(points): 
In 在 齐 次 坐标 意义 F, 对 点 集 进 行 归 一 化 ， 使 最 后 一 行为 和 


for row in points: 





row /= points[-1] 
return points 


def make_homog (points): 
"将 点 集 (dimxn 的 数组 ) 转换 为 齐 次 坐标 表示 """ 


return vstack((points,ones((1,points.shape[1])))) 


进行 点 和 变换 的 处 理 时 ， 我 们 会 按照 列 优先 的 原则 存储 这 些 点 。 因 此 ,nn 个 二 维 扣 
集 将 会 存储 为 齐 次 坐标 意义 下 的 一 个 3 xn 数组。 这 种 格式 使 得 矩阵 乘法 和 点 的 变换 
操作 更 加 容 多 。 对 于 其 他 的 例子 ， 比 如 对 于 聚 类 和 分 类 的 特征 ， 我 们 将 使 用 典型 的 
行 数 组 来 存储 数据 。 


在 这 些 投影 变换 中 ， 有 一 些 特别 重要 的 变换 。 比 如 ， 念 射 变换 : 











d a t X l A f 
y |=|% Aa l; y 或 x 一 0 1 X 
l 00 1j|l 























保持 了 w=1, 不 具有 投影 变换 所 具有 的 强大 变形 能 力 。 仿 射 变换 包含 一 个 可 逆 矩 阵 4 
和 一 个 平移 向 量 三 [4w4,]。 仿 射 变换 可 以 用 于 很 多 应 用 ， 比 如 图 像 扭曲 。 


相似 变换 : 





x’) [scos(@) -ssin(O t.][x Ri 
y|=|ssin(0) scos(@) t|ly 或 XS i i 
1 0 0 1jll 























E — ELEN EE (CY EWI A eR, EKRE s FRE S ERRE, REM 
BEA) O 的 旋转 矩阵， 大 [区 在 这 里 也 走 一 个 平移 同 量 。 如 采 s=1， 那 么 该 变换 能 够 
保持 距离 不 变 。 此 时 ， 杰 换 为 刚体 变换 。 相 似 变 换 可 以 用 于 很 多 应 用 ， 比 如 图 像 
ACE 

下 面 让 我 们 一 起 探讨 如 何 设计 用 于 佑 计 单 应 性 矩阵 的 算法 ， 然 后 看 一 下 使 用 仿 射 变 
换 进 行 图 像 扭 曲 ， 使 用 相似 变换 进行 图 像 匹 配 ， 以 及 使 用 完全 投影 变换 进行 创建 全 
x ERAT —2E BIT 











3.1.1 直接 线性 变换 算法 

单 应 性 矩阵 可 以 由 两 幅 图 像 (或 者 平面 ) 中 对 应 点 对 计算 出 来 。 前 面 已 经 提 到 过 ， 
一 个 完全 射影 变换 具有 8 个 自由 度 。 根 据 对 应 点 约束 ， 每 个 对 应 点 对 可 以 写 出 两 个 
方程 ， 分 别 对 应 于 x Aly 坐标。 因此 ， 计 算 单 应 性 矩阵 万 需 要 4 个 对 应 点 对 。 


DLT (Direct Linear Transformation， 直 接线 性 变换 ) 是 给 定 4 个 或 者 更 多 对 应 点 对 
算 了 泗 ， 来 计算 单 应 性 矩阵 五 的 算法 。 将 单 应 性 矩阵 五 作用 在 对 应 点 对 上 ， 重 新 写 出 
该 方程 ， 我 们 可 以 得 到 下 面 的 方程 : 


-x -y -1 0 0 0 xxi yx xih 
0 0 0 -x -y -1 myi wy yillh 
-x -y -l1 0 0 0 mx yx xə||hs|=0 
0 0 O =x. =y: -1 mys yy ylhe 








或 者 Ah=0, EE A 是 一 个 具有 对 应 点 对 二 倍数 量 行 数 的 矩阵 。 将 这 些 对 应 点 对 方 
程 的 系数 堆 释 到 一 个 矩阵 中 ， 我 们 可 以 使 用 SVD (Singular Value Decomposition, 
奇异 值 分 解 ) 算法 找到 五 的 最 小 二 乘 解 。 下 面 是 该 算法 的 代码 。 将 下 面 的 商 数 添加 
到 homography.py 文件 中 : 





def H from points(fp,tp): 
"使 用 线性 DLT 方 法， 计算 单 应 性 矩阵 H， 使 fp 映射 到 tp。 点 自动 进行 归 -一 化 "" 


if fp.shape != tp.shape: 
raise RuntimeError('number of points do not match') 


# 对 点 进行 归 一 化 (对 数值 计算 很 重要 ) 

# --- 映射 起 始点 --- 

m = mean(fp[:2], axis=1) 

maxstd = max(std(fp[:2], axis=1)) + 1e-9 
C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[O][2] = -m[O]/maxstd 

Ca[41][2] = -m[1]/maxstd 

To S dou CiTD) 


# --- 映射 对 应 点 --- 
m = mean(tp[:2], axis=1) 
maxstd = max(std(tp[:2], axis=1)) + 1e-9 
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iag([1/maxstd, 1/maxstd, 1]) 
2] = -m[O]/maxstd 








# 创建 用 于 线性 方法 的 矩阵 ， 对 于 每 个 对 应 对 ， 在 矩阵 中 会 出 现 两 行 数值 
nbr correspondences = fp.shape[1] 
A = zeros((2*nbr correspondences,9)) 
for i in range(nbr correspondences): 
A[2*i] = [-fp[o][i], -fp[1][i],-1,0,0,0, 


tp[o][ij*fplol[lil,tp[o]lil*fp[1][i],tpLollil]] 
A[2*i+1] = FOO Dolo [sero di Lis 
tpl pl ol tp ip lt [i] 


U,S,V = linalg.svd(A) 
H = V[8].reshape((3,3)) 


# RIA 
H = dot(linalg.inv(C2),dot(H,C1) ) 


# 归 一 化 ， 然 后 返回 
return H / H[2,2] 


EE EB ASC AY) E — Fe BR TE ee ok OT BS RE P ae ee AT]. AAS A AA ad , 
RACHA TO ea eB. ROTTS AREA RAS RIE AA. (Ase, H TER 
码 例子 更 简单 、 更 容易 理解 ， 我们 在 本 书 中 仅 在 很 少 的 例子 中 使 用 异常 处 理 技巧 。 
你 可 以 在 http://docs.python.org/library/exceptions.html 查阅 更 多 关于 异 第 类 型 的 内 
容 ， 以 及 在 http://docs.python.org/tutorial/errors.html 上 了 解 如 何 使 用 它们 。 


对 这 些 氮 进 行 归 一 化 操作 ， 使 其 均值 为 0， 方 兰 为 1。 因为 算法 的 稳定 性 取决 于 坐 
标的 表示 情况 和 部 分 数值 计算 的 问题 ， 所 以 归 一 化 操作 非常 重要 。 接 下 来 我 们 使 用 
对 应 反对 来 构造 矩阵 4。 最 小 二 乘 解 即 为 矩阵 SVD 分 解 后 所 得 矩阵 这 的 最 后 一 行 。 
该 行经 过 变形 后 得 到 算 阵 瓦 。 然 后 对 这 个 矩阵 进行 处 理 和 归 一 化 ， 返 回答 出 。 





3.1.2 AHEJ 

由 于 仿 射 变换 有 具有 OT ABE, WERTERA TR i TBE H. RY 
最 后 两 个 元 和 素 设 置 为 0， 即 万 =Ans=0， 仿 射 变 换 可 以 用 上 面 的 DLT 算法 佑 计 得 出 。 
这 里 我 们 将 使 用 不 同 的 方法 来 计算 单 应 性 算 阵 有 ,这 在 文献 [13] 中 有 详细 的 描 
述 (第 130 页)。 下 面 的 函数 使 用 对 应 点 对 来 计算 仿 射 变换 和 矩阵， 将 其 添加 到 
homograph.py 文件 中 : 








入 和 
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def Haffine from points(fp,tp): 
“LL H, (EHR, HE tp 是 fp 经 过 仿 射 变换 H 得 到 的 """ 


if fp.shape != tp.shape: 
raise RuntimeError('number of points do not match') 


E 对 点 进行 归 一 化 

# --- 映射 起 始点 --- 

m = mean(fp[:2], axis=1) 

maxstd = max(std(fp[:2], axis=1)) + 1e-9 
C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[O][2] = -m[O]/maxstd 

C1[1][2] = -m[1]/maxstd 

fp cond = dot(C1, fp) 


# --- 映射 对 应 点 --- 

m = mean(tp[:2], axis=1) 

C2 = C1.copy() # 两 个 点 集 ， 必 须 都 进行 相同 的 缩放 
C2[0][2] = -m[O]/maxstd 

C2[1][2] = -m[1]/maxstd 

tp cond = dot(C2,tp) 


# 因为 归 一 化 后 点 的 均值 为 0， 所 以 平移 量 为 0 
A = concatenate((fp_cond[:2],tp cond[:2]), axis=0) 
USV a linale .svd(A. TL) 


# 4M Hartley 和 Zisserman 4A Multiple View Geometry in Computer, Scond Edition 所 示 ， 
# GEA B AI C 


tmp Se V2) 20 
B = tmp[:2] 
C = tmp[2:4] 


tmp2 = concatenate((dot(C, linalg.pinv(B)),zeros((2,1))), axis=1) 
H = vstack((tmp2,[0,0,1])) 


# KeVA—tt 
H = dot(linalg.inv(C2),dot(H, (C1) ) 


return H / H[2,2] 


同样 地 ， 类 似 于 DLT BG, RAEN BAMA RE. EP, 
让 我 们 一 起 来 看 这 些 仿 射 变换 站 如 何 处 理 图 像 的 。 


3.2 图像 扭曲 


对 图 像 块 应 用 仿 射 变 换 ， 我 们 将 其 称 为 图 像 捏 曲 〈 或 者 仿 射 捏 曲 ) 。 该 操作 不 仅 经 





图 像 到 图 像 的 映射 | 61 


稍 应 用 在 计算 机 图 形 学 中 ， 而 且 经 稼 出 现在 计算 机 视觉 算法 中 。 扭 曲 操作 可 以 使 用 
Scipy 工具 包 中 的 ndimage 包 来 简单 完成 。 命 令 


transformed im = ndimage.affine transform(im,A,b,size) 


使 用 如 上 所 示 的 一 个 线性 变换 4 和 一 个 平移 癌 量 5b 来 对 图 像 块 应 用 仿 冉 变换 。 选 项 
参数 size 可 以 用 来 指定 输出 图 像 的 大 小 。 上 默认 输出 图 像 设 置 为 和 原始 图 像 同样 大 
小 。 为 了 研究 该 国 数 是 如 何 工作 的 ， 我 们 可 以 试 着 运行 下 面 的 命令 


from Scipy import ndimage 


im = array(Image.open('empire.jpg').convert('L')) 
H = array([[1.4,0.05,-100],[0.05,1.5,-100],[0,0,1]]) 
im2 = ndimage.affine transform(im,H[:2,:2], (H[O,2],H[1,2])) 


figure() 


gray() 
imshow(im2 ) 
show( ) 


该 命令 输出 结 末 图 像 如 图 3-1 ( 右 ) 所 示 。 可 以 看 到 ， 输 出 图 像 结 东 中 丢失 的 像素 用 
FRET., 











3-1: 用 仿 射 变换 扭曲 图 像 。 原 始 图 像 (AS) 以 及 使 用 ndimage.affine transform() HA 
扭曲 后 的 图 像 (68) 





3.2.1 图 像 中 的 图 像 
仿 射 扭曲 的 一 个 简单 例子 是 ， 将 图 像 或 者 图 像 的 一 部 分 放置 在 另 一 幅 图 像 中 ， 使 得 
它们 能 够 和 指定 的 区 域 或 者 标记 物 对 齐 。 


将 函数 image in image() 添加 到 warp.py 文件 中 。 该 函数 的 输入 参数 为 两 幅 图 像 和 
一 个 坐标 。 该 坐标 为 将 第 一 幅 图 像 放 置 到 第 二 幅 图 像 中 的 角 点 坐标 : 


def image in image(im1,im2,tp): 
""" 使 用 仿 射 变换 将 ima 放置 在 im E, tE im 图 像 的 角 和 tp 尽 可 能 的 靠近 
tp 是 齐 次 表示 的 ， 并 且 是 按照 从 左上 角 逆 时 针 计 算 的 "” 


# 扭曲 的 点 
m,n = im1.shape[:2]| 
fp = array( lomo Lo Oem le Dy tt 


# 计算 仿 射 变换 ， 并 且 将 其 应 用 于 图 像 im 

H = homography.Haffine from points(tp,fp) 

im1 t = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 

alpha = (im1 t > 0) 


return (1-alpha)*im2 + alpha*im1 t 





TER PRA ABI, TARA AIRS SARA ERE. EH h YRS ek Ra, 
我 们 就 创建 了 alpha 图像 。 该 图 像 定义 了 每 个 像素 从 各 个 图 像 中 敖 取 的 像素 值 成 分 
多 少 。 这 里 我 们 基于 以 下 事实 ， 扭 曲 的 图 像 是 在 扭曲 区 域 边 界 之 外 以 0 来 填充 的 图 
像 ， 来 创建 一 个 二 值 的 alpha 图 像 。 严 格 意 义 上 说 ， 我 们 需要 在 第 一 幅 图 像 中 的 入 
在 0 像素 上 加 上 一 个 小 的 数值 ， 或 者 合理 地 处 理 这 些 0 像素 (参见 本 章 结 尾 的 练习 
部 分 )。 注 意 ， 这 里 我 们 使 用 的 图 像 坐标 是 齐 次 坐标 意义 下 的 。 


试 着 使 用 该 函数 将 公告 牌 中 的 一 幅 图 像 插 入 男 一 幅 图 像 。 下 面 几 行 代码 会 将 图 3-2 
中 最 左 端的 图 像 揪 入 到 第 二 幅 图 像 中 。 这 些 坐 标 值 是 通过 查看 绘制 的 图 像 〈 在 PyLab 
图 像 中 ， 鼠 标的 坐标 显示 在 图 像 的 部 附近 ) 手工 确定 的 。 当 然 ， 也 可 以 用 PyLab 类 
库 中 的 ginput() 函数 获得 。 
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图 3-2: 使 用 仿 射 变换 将 一 幅 图 像 放 置 到 另 一 幅 图 像 中 
import warp 


# 仿 射 扭曲 ima 到 im2 的 例子 
im1 = array(Image.open('beatles.jpg').convert('L')) 
im2 = array(Image.open('billboard for rent.jpg' ).convert('L')) 


# 选 定 一 些 目标 点 
tp = array([[264,538,540,264],[40,36,605,605],[1,1,1,1]]) 


im3 = warp.image in image(im1,im2,tp) 


figure() 
gray() 
imshow(im3) 
axis('equal' ) 
axis('off') 
show() 


上 面 的 代码 将 图 像 放置 在 公告 牌 的 上 半 部 分 。 需 要 注意 ， 标 记 物 的 坐标 tp 是 用 齐 次 
坐标 意义 下 的 坐标 表示 的 。 将 这 些 坐 标 换 成 : 


tp = array([[675,826,826,677],[55,52,281,277], [1,1,1,1]]) 
会 将 图 像 放 置 在 公告 牌 的 左下 “for rent” #34. 


国 数 Haffine from points() 会 返回 给 定 对 应 点 对 的 最 优 仿 射 变换 。 在 上 面 的 例子 
中 ， 对 应 点 对 为 图 像 和 公告 牌 的 角 点 。 如 末 透 视 效 应 比较 弱 ， 那 么 这 种 方法 会 返回 
很 好 的 结果 。 图 3-3 的 上 面 一 行 显示 出 ， 在 具有 很 强 透 视 效 应 的 情况 下 ， 在 公告 牌 
图 像 上 使 用 射影 变换 输出 图 像 的 情况 。 在 这 种 情况 下 ， 我 们 不 可 能 使 用 同一 个 仿 射 
变换 将 全 部 4 个 角 点 变换 到 它们 的 目标 位 置 (尽管 我 们 可 以 使 用 完全 投影 变换 来 完 
成 该 任务 ) 。 所 以 ， 当 你 打算 使 用 仿 射 变换 时 ， 有 一 个 很 有 用 的 技巧 。 
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图 3-3: 比较 完全 图 像 的 仿 射 扭曲 和 使 用 两 个 三 角形 的 仿 射 这 曲 效果 。 图 像 放 置 在 公告 牌 上 ，， 
并 且 市 有 一 些 透 视 效应 。 对 于 整 幅 图 像 使 用 仿 射 担 曲 效果 不 好 。 为 了 看 清楚 ， 我 们 将 右边 的 
两 个 角 点 放大 (上 )。 使 用 包含 两 个 三 角形 的 仿 射 变换 可 以 很 好 地 将 图 像 完 全 放置 到 公告 牌 
tis) 


WaT, TNE AT A — tie RRETH, BEX SORT ORY BY LA Se Se HE BE 
AL. EAA, TRA A OT ARE, =P Oe aT Aaa 6 个 约束 条 件 
(对 于 这 三 个 对 应 点 对 ,x 和 了 坐标 必须 都 要 匹配 )。 所 以 ， 如 本 你 真 的 打算 使 用 仿 
射 变换 将 图 像 放置 到 公告 牌 上 ， 可 以 将 图 像 分 成 两 个 三 角形 ， 然 后 对 它们 分 别 进行 
扭曲 图 像 操 作 。 下 面 征 具体 实现 的 代码 : 

# 选 定 ima 角 上 的 一 些 点 

m,n = im1.shapel :2] 


fp 本 array (Llo mm0 | [0,054] 5 [451541] ]) 


# B= fe 


Ep2 = 1p 2523) 
To? = fpi] 
# 计算 H 


H = homography.Haffine from points(tp2, fp2) 
im1 七 = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# 三 角形 的 alpha 
alpha = warp.alpha for triangle(tp2,im2.shape[0],im2.shape[1]) 
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im3 = (1-alpha)*im2 + alpha*im1 t 


# BoP =A 
tp2 一 toles Os 25354 
fp2 一 | 


# 计算 中 

H = homography.Haffine from points(tp2,fp2) 

im1 t = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# 三 角形 的 alpha EUR 
alpha = warp.alpha for triangle(tp2,im2.shape[0],im2.shape[1]) 
im4 = (1-alpha)*im3 + alpha*im1 t 


figure() 


gray() 
imshow(im4) 
axis('equal' ) 
axis('off') 
show( ) 


这 里 我 们 简单 地 为 每 个 三 角形 创建 了 alpha 图 像 ， 然 后 将 所 有 的 图 像 合 并 起 来 。 该 三 
角形 的 alpha 图 像 可 以 人 简单 地 通过 检查 像素 的 坐标 是 否 能 够 写成 三 角形 顶点 坐标 的 册 
组 合 来 计算 得 出 。 如 果 坐 标 可 以 表示 成 这 种 形式 ， 那 么 该 像素 就 位 于 三 角形 的 内 部 。 
上 面 的 例子 使 用 了 下 面 的 函数 alpha for triangle), KJE] warp.py 文件 中 。 





def alpha for triangle(points,m,n): 
""" 对 于 带 有 由 points 定义 角 点 的 三 角形 ， 创 建 大 小 为 (m, n) 的 alpha 
(在 归 一 化 的 齐 次 坐标 意义 下 )""" 


alpha = zeros((m,n)) 
for i in range(min(points[0]),max(points[0])): 
for j in range(min(points[1]),max(points[1])): 
x = linalg.solve(points, [i,j,1]) 
if min(x) > 0: # 所 有 系数 都 大 于 零 
alphal si. J| 4 
return alpha 


你 的 显卡 可 以 极其 快速 地 操作 上 面 的 代码 。Python 语言 的 处 理 速 度 比 你 的 显卡 (或 
者 C/C++ 实现 ) 慢 很 多 ， 但 是 对 于 我 们 来 说 已 经 够 用 了 。 正 如 在 图 3-3 下 半 部 分 所 
看 到 的 ， 角 点 可 以 很 好 地 匹配 。 


注 1: 四 组 合 是 形式 为 Qjx 的 线性 组 合 (在 三 角形 的 例子 中 ), 其 中 所 有 的 系数 a 非 负 , 并 且 和 为 1。 
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3.2.2 分 段 仿 射 扭曲 

正如 上 面 的 例子 所 示 ， 三 角形 图 像 块 的 仿 射 扭曲 可 以 完成 角 点 的 精确 匹配 。 让 我 们 
看 一 下 对 应 点 对 集合 之 则 最 和 沼 用 的 扭曲 方式 : 分 段 仿 射 捏 曲 。 给 定 任 意图 像 的 标记 
点 ， 通 过 将 这 些 点 进行 三 角 剖 分 ， 然 后 使 用 仿 射 扭曲 来 扭曲 每 个 三 角形 ， 我 们 可 以 
将 图 像 和 另 一 幅 图 像 的 对 应 标记 点 扭曲 对 应 。 对 于 任何 图 形 和 图 像 处理 库 来 说 ， 这 
些 者 是 最 基本 的 操作 。 下 面 我 们 来 钞 示 一 下 如 何 使 用 Matplotlib 和 SciPy 来 完成 该 
操作 。 


为 了 三 角 化 这 些 点 ， 我 们 经 常 使 用 狄 洛克 三 角 训 分 方法 。 在 Matplotlip (但 是 不 在 
PyLab 库 中 ) 中 有 狄 洛克 三 角 剖 分， 我 们 可 以 用 下 面 的 方式 使 用 它 : 





import matplotlib.delaunay as md 


x,y = array(random.standard normal((2,100))) 
centers,edges,tri,neighbors = md.delaunay(x,y) 


figure() 

FOX E Tm EII 
t ext = [t[o] 
plot(x[t_ext ] 


t[1], t[2], tlo]] # 将 第 一 个 点 加 入 到 最 后 
VL text] yr") 


PLOECH y] 

axis('off') 

show() 
3-4 ean SHES ILA A= FAIR. BKK oe = FAH a7 ee FE — 2S = PAE, 
(i = FA HE BTA = FATE eb FA RA o KZ delaunay() 有 4 个 输出 ， 其 中 
我 们 仅 需 要 三 角形 列表 信息 (第 三 个 输出 )。 在 warp.py 文件 中 创建 用 于 三 角 剖 分 
的 国 数 : 


import matplotlib.delaunay as md 


def triangulate points(x,y): 
Wie 二 维 点 的 Delaunay = FAI Wied 


centers,edges, tri,neighbors = md.delaunay(x,y) 
return tri 


pA Acim HH AY ez — AH, ABE A a: — 1 E ARH x 和 y Fa = IB = 
OF 


注 1: 三 角 剂 分 中 的 边 实 际 上 是 泰 森 图 的 对 偶 图 。 参 见 http://en.wikipedia.org/wiki/Delaunay_triangulation。 
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3-4: 随机 二 维 点 集 的 狄 洛克 三 角 剖 分 示例 


现在 让 我 们 将 该 算法 应 用 于 一 个 例子 ， 在 该 例子 中 ,在 Sx6 的 网 格 上 使 用 30 个 控 
制 点 ， 将 一 幅 图 像 扭 曲 到 另 一 幅 图 像 中 的 非 平 坦 区 域 。 图 3-5b 所 示 的 是 将 一 幅 图 像 
扭曲 到 “turning torso” 的 表面 。 目 标点 是 使 用 ginput() 国 数 手 工 选 取出 来 的 ， 将 结 
果 保 存在 turningtorso_points.txt 文件 中 。 


首先 ， 我 们 需要 写 出 一 个 用 于 分 段 仿 射 图 像 扭 曲 的 通用 扭曲 函数 。 下 面 的 代码 可 以 
实现 该 功能 。 在 该 代码 中 ， 我 们 也 展示 了 如 何 扭 曲 一 幅 彩 色 图 像 (你 仅 需 要 对 每 个 
颜色 通道 进行 扭曲 )。 
def pw affine(fromim, toim, fp,tp, tri): 
"e 从 一 幅 图 像 中 扭曲 矩形 图 像 块 

fromim= 将 要 扭曲 的 图 像 

toim= 目标 图 像 

fp- 齐 次 坐标 表示 下 ， 扭 曲 前 的 点 

tp- 齐 次 坐标 表示 下 ， 扭 曲 后 的 点 


tri- 三 角 谢 分 """ 
im = toim.copy() 


# Aor (Re A IE Beak #2 2 Ad 


is color = len(fromim.shape) == 


# 创建 扭曲 后 的 图 像 (如 果 需 要 对 彩色 图 像 的 每 个 颜色 通道 进行 迭代 操作 ， 那 么 有 必要 这 样 做 ) 


im t = zeros(im.shape, ‘uint8') 


FOr T UEL 
# 计算 仿 射 变换 
H = homography.Haffine from points(tp[:,t],fp[:,t]) 


Lf Is- Color: 
for col in range(fromim.shape[2]): 
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im t[:,:,col] = ndimage.affine transform( 
FLOM sc COLA 22552 (Ho 21, ty 2) )ameshape| :| 
else: 
im t = ndimage.affine transform( 
fromim | -2322 |; (HLO;2 13H12 |); im: shape +21) 


# 三 角形 的 alpha 
alpha = alpha for triangle(tp[:,t],im.shape[0],im.shape[1]) 


# 将 三 角形 加 入 到 图 像 中 
im[alpha>0] = im t[alpha>o] 


return im 


在 该 代码 中 ， 我 们 首先 检查 该 图 像 是 灰 度 图 像 还 是 彩色 图 像 。 如 果 图 像 为 彩色 图 像 ， 
则 对 每 个 颜色 通道 进行 扭曲 处 理 。 因 为 对 于 每 个 三 角形 来 说 ， 仿 射 变 换 是 唯一 确定 
的 ， 所 以 我 们 这 里 使 用 Haffine from points() 国 数 来 处 理 。 将 上 面 的 国 数 语 加 到 


warp.py 文件 中 。 


为 了 将 该 函数 应 用 到 当前 例子 中 ， 接 下 来 的 简短 脚本 将 这 些 操 作 统 一 起 来 : 


import homography 
import warp 


# 打开 图 像 ， 并 将 其 扭曲 

fromim = array(Image.open('sunset tree.jpg )) 
x,y = meshgrid(range(5),range(6)) 

x = (fromim.shape[1]/4) * x.flatten() 

y = (fromim.shape[0]/5) * y.flatten() 


# = faala 
tri = warp.triangulate_points(x,y) 


# TTT AURA te 
im = array(Image.open('turningtorso1. jpg')) 
tp = loadtxt('turningtorso1 points.txt') # destination points 


# 将 点 转换 成 齐 次 坐标 
fp = vstack((y,x,ones((1, len(x))))) 
tp = vstack((tp[:,1],tp[:,0],ones((1, len(tp))))) 


# 扭曲 三 角形 


im = warp.pw_affine(fromim, im, fp, tp, tri) 
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# 绘制 图 像 

figure() 

imshow(im) 

warp.plot mesh(tp[1],tp[0], tri) 
axis('off') 

show( ) 


输出 结果 如 图 3-5c 所 示 。 我 们 通过 下 面 的 辅助 函数 (将 其 添加 到 warp.py 文件 中 ) 
来 绘制 出 图 像 中 的 这 些 三 角形 : 


def plot mesh(x,y,tri): 
Wit 绘制 三 角形 unun 


Tor tin tri: 
t ext = [t[o], t[1], t[2], t[o]] # 将 第 一 个 点 加 入 到 最 后 
plot(x[t_ext],y[t_ext], 'r') 
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图 3-5: 使 用 狄 洛克 三 角 剖 分 标记 点 进行 分 段 仿 射 担 曲 :，(a) 为 带 有 标记 物 的 目标 图 像 ，(b) 
为 珊 有 三 角 副 分 的 图 像 ，(c) 为 担 曲 后 的 图 像 ，(d) 为 市 有 三 角 训 分 的 扭曲 图 像 


这 个 例子 应 该 能 够 帮助 你 在 应 用 中 做 图 像 的 分 段 仿 射 扭 曲 。 我 们 可 以 对 该 例子 中 的 
国 数 进 行 改 进 。 我 们 将 其 中 一 部 分 留 作 练习 ， 剩 下 的 留 给 你 上 自己 解决 。 


3.2.3 图像 配 准 

图 像 配 准 是 对 图 像 进 行 变换 ， 使 变换 后 的 图 像 能 够 在 常见 的 坐标 系 中 对 齐 。 配 准 可 
以 是 严格 配 准 ， 也 可 以 是 非 严 格 配 准 。 为 了 能 够 进行 图 像 对 比 和 更 精细 的 图 像 分 析 ， 
图 像 配 准 是 一 步 非 常 重 要 的 操作 。 


让 我 们 一 起 看 一 个 对 多 个 人 脸 图 像 进行 严格 配 准 的 例子 。 该 配 准 使 得 我 们 计算 的 平 
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均 人 腔 和 人 脸 表 观 的 变化 具有 意义 。 因 为 ， 图 像 中 的 人 脸 并 不 都 有 相同 的 大 小 、 位 
置 和 方 同 ， 所 以 ， 在 这 种 类 型 的 配 准 中 ， 我 们 实际 上 是 寻找 一 个 相似 变换 《〈 带 有 尺 
度 变化 的 刚体 变换 ) ， 在 对 应 点 对 之 间 建 立 映 射 。 


在 jkface.zip 文件 中 有 366 幅 单 人 图 像 (2008 年 ， 每 天 一 幅 )。 这 些 图 像 都 对 眼睛 
和 嘴 的 坐标 进行 了 标记 ， 结 果 保 存在 jkface.xml 文件 中 。 使 用 这 些 点 ,我 们 可 以 计 
算出 一 个 相似 变换 ， 然 后 将 可 以 使 用 该 变换 (包含 尺度 变换 ) 的 这 些 图 像 扭 曲 到 一 
个 归 一 化 的 坐标 系 中 。 为 了 读 取 XML 格式 的 文件 ， 我 们 将 会 使 用 Python 中 内 置 
xml.dom 模块 中 的 minidom 类 库 。 


该 XML 文件 看 起 来 类 似 于 下 面 的 格式 : 








<?xml version="1.0" ”encoding= utf-8 ?> 

<faces> 
<face file="jk-002.jpg" xf="46" xm="56" xs="67" yf="38" ym="65" ys="39"/> 
<face file="jk-006.jpg" xf="38" xm="48" xs="59" yf="38" ym="65" ys="38"/> 
<face file="jk-004. jpg" xf="40" xm="50" xs="61" yf="38" ym="66" ys="39"/> 
<face file="jk-010.jpg" xf="33" xm="44" xs="55" yf="38" ym="65" ys="38"/> 


</faces> 


为 了 从 该 文件 中 读 取 这 些 坐 标 ， 我 们 需要 将 使 用 minidom 的 函数 添加 到 新 文件 
imregistration.py 中 : 


from xml.dom import minidom 


def read points from xml(xmlFileName) : 


" 读 取 用 于 人 脸 对 齐 的 控制 点 """ 


xmldoc = minidom.parse(xmlFileName) 
facelist = xmldoc.getElementsByTagName('face') 
faces = {} 
for xmlFace in facelist: 
fileName = xmlFace.attributes|'file'].value 
xf = int(xmlFace.attributes['xf'].value) 


yf = int(xmlFace.attributes['yf'].value) 

xs = int(xmlFace.attributes['xs'].value) 

ys = int(xmlFace.attributes['ys'].value) 

xm = int(xmlFace.attributes['xm'].value) 
[ ym | 


ym = int(xmlFace.attributes .value) 


‘ym’ 
faces[fileName] = array([xf, yf, xs, ys, xm, ym]) 


return faces 


iE 1: 这 些 图 像 是 由 J. K. Keller (经 过 许可 ) 提供 的 ， 详 情 参 见 http://jk-keller.com/daily-photo/。 
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这 些 标记 点 会 在 Python 中 以 字典 的 形式 返回 ， 字 ~ 典 的 键 值 为 图 像 的 文件 名 。 格 式 
为 : 图 像 中 左 眼 (人 脸 右 侧 ) 的 坐标 为 xf 和 yf， 右 眼 的 坐标 为 xs 和 ys， 嘴 的 坐标 
为 xm 和 ym。 为 了 计算 相似 变换 中 的 参数 ， 我 们 可 以 使 用 最 小 二 乘 解 来 解决 。 对 于 
每 个 点 xex, yl (在 这 个 例子 中 ， 每 幅 图 像 有 三 个 点 )， 这 些 点 应 该 被 映射 到 目标 位 
置 [%, yj] ， 如 下 所 示 : 








a) 
“Ip a 


Xi 
Ji 


Xi 
Ji 


十 


























ly 


将 这 三 个 点 都 表示 成 该 形式 ， 我 们 可 以 重新 将 其 写成 方程 组 的 形式 。 该 方程 组 中 含 
fia, by t RAR, WFAA: 


XxX| [x -y 1 0 
Vi YX) xX 0 lila 
| |x -yy 1 0l|b 
J 7 YV X2 0 lyin 
X3| lx =y: 1 0 
ys| yx x 01 


TARERE BEEREK RIN: 


a -b| |cos(0) —sin(@) 


wal lane), sor 














其 中 尺度 s = Ya’ +b ， 旋 转 矩 阵 为 R。 


如 果 存 在 更 多 的 对 应 点 对 ， 其 计算 公式 相同 ， 只 需 在 矩阵 中 额外 添加 几 行 。 你 可 以 
使 用 linalg.1stsq() 国 数 来 计算 该 问题 的 最 小 二 乘 解 。 使 用 最 小 二 乘 解 的 思 外 下 
个 标准 技巧 ， 我 们 还 会 在 本 书 中 多 次 使 用 。 实 际 上 ， 这 和 之 前 在 DLT 算法 中 使 用 的 
方式 相同 。 


函数 的 具体 代码 如 下 (将 其 添加 到 imregistration.py 文件 中 ) : 





from scipy import linalg 


def compute rigid transform(refpoints, points): 


"" 计算 用 于 将 点 对 齐 到 参考 点 的 旋转 、 尺 度 和 平移 量 """ 


A = array([ [points[0], -points[1], 1, O], 
[points[1], points[0], 0, 1], 
[points[2], -points[3], 1, 0], 
[points[3]5. <points|[2)5.°05~4]5 





[points[4], -points[5], 1, 0], 
[points[5], points[4], 0, 1]]) 


y = array([ refpoints[0o], 
refpoints[1], 
refpoints[2], 
refpoints|3 | 

[4] 

[5] 


refpoints[4 


J 


]) 


refpoints|5 
# 计算 最 小 化 | |Ax-y| | 的 最 小 二 乘 解 
a,b,tx,ty = linalg.1stsq(A,y) [0] 
R = array([[a, -b], [b, a]]) # 包含 尺度 的 旋转 矩阵 


ETUA Rs txsty 





该 函数 返回 一 个 具有 尺度 的 旋转 算 了 泗 ， 以 及 在 x 和 >》 方 癌 上 的 平移 量 。 为 了 扭曲 图 
像 ， 并 保存 对 齐 后 的 新 图 像 ， 我 们 可 以 对 每 个 颜色 通道 (这 些 图 像 都 是 彩色 图 像 ) 
应 用 ndimage.affine transform() 图 数 操 作 。 作 为 参 芳 坐标 系 ， 你 可 以 使 用 任何 三 
个 点 的 坐标 。 这 里 我 们 为 了 简单 起 见 ， 直 接 使 用 第 一 幅 图 像 中 的 标记 位 置 : 


from Scipy import ndimage 
from scipy.misc import imsave 
import os 


def rigid alignment (faces, path, plotflag=False): 
""" 严格 对 齐 图 像 ， 并 将 其 保存 为 新 的 图 像 
path 决定 对 齐 后 图 像 保 存 的 位 置 
设置 plotflag=True， 以 绘制 图 像 """ 


# 将 第 一 幅 图 像 中 的 点 作为 参考 点 


refpoints = faces.values()[0] 


# 使 用 仿 射 变换 扭曲 每 幅 图 像 
for face in faces: 
points = faces[facej 
R,tx,ty = compute rigid transform(refpoints, points) 


T = array([[R[1][1], R[1][0]], [R[o][1], R[o][0]]]) 


im = array(Image.open(os.path.join(path,face))) 
im2 = zeros(im.shape, ‘uint8') 


# 对 每 个 颜色 通道 进行 扭曲 
for i in range(len(im.shape) ): 


im2[:,:,i] = ndimage.affine transform(im[:,:,i],linalg.inv(T),offset=[-ty, -tx]) 
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if plotflag: 
imshow(im2 ) 
show( ) 


# 裁剪 边界 ， 并 保存 对 齐 后 的 图 像 


h,w = im2.shape[ :2] 
border = (w+h)/20 


# RSI 
imsave(os.path.join(path, 'aligned/'+face),im2[border:h-border,border:w-border,:]) 


这 里 我 们 使 用 imsave() 函数 来 将 对 齐 后 的 图 像 保存 到 aligned 子 文件 夹 中 。 


接 下 来 的 向 短 脚本 会 读 取 XML 文件 ， 甚 中 文件 名 为 键 ， 点 的 坐标 为 键 值 。 然 后 配 
人 难 所 有 的 图 像 ， 将 它们 与 第 一 幅 图 像 对 齐 





import imregistration 


E 载 和 人 控制 点 的 位 置 
xmlFileName = 'jkfaces2008 small/jkfaces.xml' 
points = imregistration.read points from _xml(xmlFileName) 


# 注册 
imregistration.rigid alignment(points, 'jkfaces2008 small/') 


运行 这 些 代 码 ， 你 能 够 在 子 目 孙 中 得 到 这 些 对 齐 后 的 人 脸 图 像 。 图 3-6 所 示 为 配 准 


前 后 的 6 幅 样 本 图 像 。 由 于 配 准 后 图 像 的 边界 可 能 会 出 现 不 想 要 的 黑色 填充 像素 ， 
所 以 我 们 对 配 准 后 的 图 像 进行 轻微 的 修剪 ， 来 删除 这 些 黑 色 填 充 像 素 。 




















现在 让 我 们 看 配 准 操 作 如 何 影 响 平 均 图 像 。 图 3-7 为 未 对 齐 人 脸 图 像 的 平均 图 像 ， 
BENT a ARPA. GER, HP a RW ey, LAP E E 
像 的 大 小 有 差异 ) 尽管 在 原始 图 像 中 ， 人 脸 的 尺寸 、 方 同和 位 置 变化 都 很 小 ， 但 是 
配 准 操作 对 平均 图 像 的 计算 结 采 影响 很 大 。 








3-7: 平均 图 像 的 比较 : 没有 对 草 操作 (E); 经 过 三 点 刚体 对 亨 操作 〈 石 ) 


目 然 地 ， 使 用 未 准确 配 准 的 图 像 同 样 对 主 成 分 的 计算 结 未 有 着 很 大 的 影响 。 图 3-8 
表示 ， 从 未 经 过 配 准 和 经 过 配 准 的 数据 集中 选取 前 150 RR, PCA 的 计算 结 采 。 
正如 平均 图 像 一 样 ， 未 配 准 的 PCA 模式 是 模糊 的 。 在 计算 主 成 分 时 ， 我 们 使 用 以 平 
均 人 脸 位 置 为 中 心 的 椭圆 掩 腊 。 在 堆 人 这些 图 像 之 前 ， 将 这 些 图 像 和 掩 膜 相 乘 ， 我 
们 能 够 避免 将 痛 景 变化 币 入 到 PCA 模式 中 。 将 1.3 市 PCA 例子 中 创建 矩阵 的 一 行 
松 换 为 : 





immatrix = array([mask*array(Image.open(imlist[i]).convert('L')).flatten() 
for i in range(150)],'f') 





其 中 mask 古 一 副 同 样 大 小 的 二 值 图像 ， 已 经 经 过 压 平 处 理 。 
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3-8: 比较 未 配 准 和 已 配 准 图 像 的 PCA 模式 : 未 经 过 配 准 的 平均 图 像 和 前 9 个 主 成 分 
(E); 经 过 配 准 后 的 平均 图 像 和 前 9 个 主 成 分 (下) 


3.3 创建 全 景 图 


在 同一 位 置 ( 即 图 像 的 照相 机 位 置 相同 ) 拍摄 的 两 幅 或 者 多 幅 图 像 是 单 应 性 相关 的 
(如 图 3-9 所 示 )。 我 们 经 常 使 用 该 约束 将 很 多 图 像 缝 补 起 来 ， 拼 成 一 个 大 的 图 像 来 
创建 全 景 图 像 。 在 本 中 ， 我 们 将 探讨 如 何 创 建 全 景 图 像 。 
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3-9: 瑞典 隆 德 主要 大 学 建筑 的 5 幅 图 像 。 这 些 图 像 都 是 从 同一 个 视点 拍摄 尼 


3.3.1 RANSAC 


RANSAC 是 “RANdom SAmple Consensus”( 随 机 一 致 性 采样 ) 的 缩写 。 该 方法 是 
用 来 找到 正确 模型 来 拟 合 带 有 品 再 数据 的 迭代 方法 。 给 定 一 个 模型 ， 例 如 点 集 之 间 
的 单 应 性 矩阵 ，RANSAC 基本 的 思想 是 ， 数 据 中 包含 正确 的 点 和 噪声 点 ， 合 理 的 模 
型 应 该 能 够 在 摘 述 正确 数据 氮 的 同时 握 弃 噪声 氮 。 


RANSAC 的 标准 例子 : 用 一 条 直线 拟 合 带 有 品 再 数据 的 点 集 。 人 简单 的 最 小 二 乘 在 该 
例子 中 可 能 会 失效 ,但 是 RANSAC 能 够 挑选 出 正确 的 点 ， 然 后 获取 能 够 正确 拟 合 
的 直线 。 下 面 来 看 使 用 RANSAC 的 例子 。 你 可 以 从 http://www.scipy.org/Cookbook/ 
RANSAC 下 载 ransac.py， 里 面包 含 了 特定 的 例子 作为 测试 用 例 。 3-10 为 运行 
ransac.text() 的 例子 。 可 以 看 到 ， 该 算法 只 选择 了 和 直线 模型 一 致 的 数据 点 ， 成 功 
地 找到 了 正确 的 解 。 


RANSAC 是 个 韭 第 有 用 的 算法 ， 我 们 将 在 下 一 市 估计 单 应 性 矩阵 和 其 他 一 些 例子 中 
使 用 它 。 关 于 RANSAC 更 多 的 信息 ， 参 见 Fischler 和 Bolles 的 原始 论文 [11]、 维 基 
百科 http://en.wikipedia.org/wiki/RANSAC 或 者 技术 报告 [40]。 
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。 。 数据 
x x RANSAC 数 气 
RANSACH 


线性 拟 合 





一 5 0 5 10 15 20 25 


3-10: 使 用 RANSAC 算法 用 一 条 直线 来 拟 合 包含 噪声 数据 点 集 


3.3.2 ”稳健 的 单 应 性 矩阵 估计 


我 们 在 任何 模型 中 都 可 以 使 用 RANSAC 模块 。 在 使 用 RANSAC 模块 时 ， 我 们 只 需 
要 在 相应 Python 类 中 实现 fit() 和 get error() 方法 , 剩 下 就 是 正确 地 使 用 ransac.py。 
我 们 这 里 使 用 可 能 的 对 应 点 集 来 自动 找到 用 于 全 景 图 像 的 单 应 性 矩阵 。 图 3-11 所 示 
为 使 用 SIFT 特征 自动 找到 匹配 对 应 。 这 可 以 通过 运行 下 面 的 命令 来 实现 : 








import sift 


featname = ['Univ'+str(i+1)+'.sift' for i in range(5) | 
imname = ['Univ'+str(it+1)+'.jpg' for i in range(5) | 
l= {} 
d = {} 
for i in range(5): 
sift.process image(imname[i],featname[i]) 
l[i],d[i] = sift.read features from file(featname[i]) 


matches = {} 
for i in range(4): 
matches[i] = sift.match(d[i+1],d[i]) 


显然 ， 并 不 征 所 有 图 像 中 的 对 应 点 对 都 是 正确 的 。 实 际 上 ，SIFT ÆRA IRR aE E 
的 描述 子 ， 能 够 比 其 他 摘 述 子 ， 例 如 图 像 块 相关 的 Harris 角 点 ， 产 生 更 少 的 错误 的 
匹配 。 但 是 该 方法 仍然 远 非 完 美 。 





| 人 大 大 
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图 3-11: 在 连续 图 像 对 间 使 用 SIFT 特征 寻找 匹配 对 应 点 对 


我 们 使 用 RANSAC 算法 来 求解 单 应 性 和 矩阵， 首先 需要 将 下 面 模型 类 添加 到 
homography.py 文件 中 : 


class RansacModel(object): 
""" 用 于 测试 单 应 性 矩阵 的 类 ， 其 中 单 应 性 矩阵 是 由 网 站 http://www.scipy.org/Cookbook/RANSAC 上 
的 ransac.py 计算 出 来 的 """ 


def init (self,debug=False): 
self.debug = debug 


def fit(self, data): 
"计算 选取 的 4 个 对 应 的 单 应 性 矩阵 """ 


# 将 其 转 置 ， 来 调用 H from points() 计算 单 应 性 矩阵 
data = data.T 


# 映射 的 起 始点 
+p =-datal| 23,24] 
# 映射 的 目标 点 
tips datal 3: ,24] 
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# 计算 单 应 性 和 矩阵， 然后 返回 
return H from points(fp,tp) 


def get error( self, data, H): 
""" 对 所 有 的 对 应 计算 单 应 性 矩阵， 然后 对 每 个 变换 后 的 点 ， 返 回 相应 的 误差 """ 








data = data.T 


# 映射 的 起 始点 

fo = data[:3] 

# 映射 的 目标 点 

tp = data[3: | 

# 变换 fp 

fp transformed = dot(H, fp) 


# 归 一 化 齐 次 坐标 
for i in range(3): 
fp transformed[i] /= fp transformed[2] 


# 返回 每 个 点 的 误差 
return sqrt( sum((tp-fp_ transformed) **2,axis=0) ) 


可 以 看 到 ， 这 个 类 包含 fit() 方法 。 该 方法 仅仅 接受 由 ransac.py 选择 的 4 个 对 应 后 
对 (data 中 的 前 4 个 点 对 ) ， 然 后 拟 合 一 个 单 应 性 矩阵 。 记 住 ，4 个 点 对 是 计算 单 
应 性 矩阵 所 需 的 最 少数 目 。 由 于 get error() 方法 对 每 个 对 应 点 对 使 用 该 单 应 性 和 矩 
阵 ， 然 后 返回 相应 的 平方 距离 之 和 ， 因 此 RANSAC 算法 能 够 判定 哪些 点 对 是 正确 
的 ， 哪 些 是 错误 的 。 在 实际 中 ， 我 们 需要 在 距离 上 使 用 一 个 国 值 来 决定 哪些 单 应 性 
筷 阵 是 合理 的 。 为 了 方便 使 用 ， 将 下 面 的 国 数 添 加 到 homography.py 文件 中 : 











def H from ransac(fp,tp,model,maxiter=1000,match theshold=10): 
""" 使 用 RANSAC 稳健 性 估计 点 对 应 间 的 单 应 性 矩阵 H (Transac.py 为 从 
http://www.scipy.org/Cookbook/RANSAC 下 载 的 版 本 ) 


# 输入 ; 齐 次 坐标 表示 的 点 fp, tp (3 xn 的 数组 )""" 
import ransac 


# 对 应 点 组 

data = vstack((fp, tp) ) 

# 计算 H， 并 返回 

H,ransac data = ransac.ransac(data.T,model,4,maxiter,match theshold,10, 


return_all=True) 
return H,ransac_data['inliers' | 











该 函数 同样 允许 提供 国 值 和 最 小 期 望 的 点 对 数目 。 最 重要 的 参数 古 最 大 从 代 次 数 : 
程序 进出 太 早 可 能 得 到 一 个 坏 解 ， 达 代 次 数 太 多 会 占用 太 多 时 间 。 函 数 的 返回 结 来 
为 单 应 性 矩阵 和 对 应 该 单 应 性 和 矩阵 的 正确 所 对 。 


类 似 于 下 面 的 操作 ， 你 可 以 将 RANSAC 算法 应 用 于 对 应 点 对 上 


# 将 匹配 转换 成 齐 次 坐标 后 的 函数 

def convert points(j): 
ndx = matches[j].nonzero()[0] 
fp = homography.make_homog(1[j+1][ndx,:2].T) 
ndx2 = [int(matches[j][i]) for i in ndx] 
tp = homography.make_homog(1[j][ndx2,:2].T) 
return fp,tp 


# (ert FE PERRE 
model = homography.RansacModel() 


fo,tp = convert_points(1) 
H 12 = homography.H from ransac(fp,tp,model)[0] # im1 到 im2 的 单 应 性 矩阵 


fo,tp = convert_points(0) 
H 01 = homography.H from ransac(fp,tp,model)[0] # imo 到 im1 的 单 应 性 矩阵 


tp,fp = convert _points(2) # 注意 : 点 是 反 序 的 
H 32 = homography.H from ransac(fp,tp,model)[0] # im3 到 im2 的 单 应 性 矩阵 


tp,fp = convert points(3) # 注意 点 是 反 序 的 
H 43 = homography.H from ransac(fp,tp,model)[0] # im4 到 im3 的 单 应 性 矩阵 


在 该 例子 中 ， 图 像 2 古 中 心 图 像 ， 也 是 我 们 希望 将 其 他 图 像 变 成 的 图 像 。 图 像 0 和 
图 像 1 应 该 从 右边 扭曲 ， 图 像 3 和 图 像 4 从 左边 扭曲 。 在 每 个 图 像 对 中 ， 由 于 匹配 
古 从 最 右边 的 图 像 计算 出 来 的 ， 所 以 我 们 将 对 应 的 顺序 进行 了 三 倒 ， 使 其 从 左边 图 
像 开 始 扭 曲 。 因 为 我 们 不 关心 该 扭曲 例子 中 的 正确 点 对 ， 所 以 仅 需 要 该 函数 的 第 一 
个 输出 ( 单 应 性 矩阵 )。 


3.3.3 ”拼接 图 像 

估计 出 图 像 间 的 单 应 性 矩阵 (使 用 RANSAC 算法 )， 现 在 我 们 需要 将 所 有 的 图 像 扭 
曲 到 一 个 公共 的 图 像 平面 上 上。 通常 ， 这 里 的 公共 平面 为 中 心 图像 平 面 (否则 ， 需 要 
进行 大 量变 形 )。 一 种 方法 是 创建 一 个 很 大 的 图 像 ， 比 如 图 像 中 全 部 填充 0， 使 其 和 
中 心 图 像 平 行 ， 然 后 将 所 有 的 图 像 扭 曲 到 上 面 。 由 于 我 们 所 有 的 图 像 是 由 照相 机 水 平 
旋转 拍摄 的 ， 因 此 我 们 可 以 使 用 一 个 较 人 简单 的 步 双 :将 中 心 图 像 左 边 或 者 右边 的 区 域 
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填充 0， 以 便 为 扭曲 的 图 像 腾 出 空间 。 将 下 面 的 代码 添加 到 warp.py 文件 中 : 


def panorama(H,fromim,toim,padding=2400, delta=2400): 
morn 使 用 单 应 性 矩阵 H (使 用 RANSAC 健壮 性 估计 得 出 )， 协 调 两 幅 图 像 ， 创 建 水 平 全 景 图 像 。 结 果 
为 一 幅 和 toim 具有 相同 高 度 的 图 像 。padding 指定 填充 像素 的 数目 ，delta 指定 额外 的 平移 量 """ 





# 检查 图 像 是 灰 度 图 像 ， 还 是 彩色 图 像 


is color = len(fromim.shape) == 


# 用 于 geometric transform() 的 单 应 性 变换 
def transf(p): 

p2 = dot(H,[p[0],p[1],1]) 

return (p2[0]/p2[2],p2[1]/p2[2]) 


if H[1,2]<o: # fromim 在 右边 
print ‘warp - right’ 
# 变换 fromim 
WaS Color: 
# 在 目标 图 像 的 右边 填充 0 
toim t = hstack((toim, zeros((toim.shape[0],padding,3)))) 
fromim t = zeros((toim.shape[0],toim.shape[1]+padding, toim. shape| 2 ]) ) 
for col in range(3): 
fromim t[:,:,col] = ndimage.geometric transform(fromim[:,:,col], 
transf, (toim.shape[0],toim. shape[1]+padding) ) 
else: 
# 在 目标 图 像 的 右边 填充 0 
toim t = hstack((toim, zeros((toim. shape[0],padding) ))) 
fromim t = ndimage.geometric_ transform(fromim, transf, 
(toim.shape[0],toim. shape[1]+padding) ) 
else: 
print ‘warp - left’ 
# 为 了 补偿 填充 效果 ， 在 左边 加 入 平移 量 
H delta = array([[1,0,0],[0,1,-delta],[0,0,1]]) 
H = dot(H,H delta) 
# fromim 变换 
dees GC OLE 
# 在 目标 图 像 的 左边 填充 0 
toim t = hstack((zeros((toim.shape[0],padding,3)),toim) ) 
fromim t = zeros((toim.shape[0],toim.shape[1]+padding,toim.shape[2])) 
for col in range(3): 
fromim t[:,:,col] = ndimage.geometric transform(fromim[:,:,col], 
transf, (toim.shape[0],toim.shape[1]+padding) ) 
else: 
# 在 目标 图 像 的 左边 填充 0 
toim t = hstack((zeros((toim.shapelo|],padding)),toim)) 
fromim t = ndimage.geometric transform(fromim, 





transf, (toim.shape[0],toim. shape[1]+padding) ) 


# 协调 后 返回 (将 fromim 放置 在 toim E) 
ee 

t PRATER ERA 

aloha: = (Chrominiet is Ol Fromim tls trom tle I) 0) 

for col in range(3): 

toim t[:,:,col] = fromim t[:,:,col]*alpha + toim t[:,:,col]*(1-alpha) 

else: 

alpha = (fromim t > 0) 

toim t = fromim t*alpha + toim t*(1-alpha) 


return toim t 


对 于 通用 的 geometric transform() 国 数 ， 我 们 需要 指定 能 够 摘 述 像素 到 像素 间 映 射 
的 函数 。 在 这 个 例子 中 ，transf() 久 数 就 是 该 指定 的 函数 。 该 函数 通过 将 像素 和 二 
相 乘 ， 然 后 对 齐 次 坐标 进行 归 一 化 来 实现 像素 则 的 上 映射。 通过 查看 五 中 的 平移 量 
我 们 可 以 决定 应 该 将 该 图 像 填 补 到 左边 还 是 右边 。 当 该 图 像 填 和 补 到 左边 时 ， ATE 
标 图 像 中 点 的 坐标 也 变化 了 ， 所 以 在 “左边 ”情况 中 ， 需 要 在 单 应 性 矩阵 中 加 入 平 
移 。 人 向 单 起 见 ， 我 们 同样 使 用 0 像素 的 技巧 来 寻找 alpha 图 。 


现在 在 图 像 中 使 用 该 操作 ， 函 数 如 下 所 示 : 


# 扭曲 图 像 
delta = 2000 # 用 于 填充 和 平移 








im1 = array(Image.open(imname[1])) 


im2 = array(Image.open(imname|2 |) ) 
im 12 = warp.panorama(H 12,im1,im2,delta,delta) 


im1 = array(Image.open(imname[0]) ) 
im 02 = warp.panorama(dot(H 12,H 01),im1,im 12,delta,delta) 


im1 = array(Image.open(imname|[3]) ) 
im 32 = warp.panorama(H 32,im1,im 02,delta,delta) 


im1 = array(Image.open(imname|j+1])) 
im 42 = warp.panorama(dot(H_ 32,H 43),im1,im 32,delta,2*delta) 


注意 ， 在 最 后 一 行 中 ，im 32 图 像 已 经 发 生 了 一 次 平移 。 创 建 的 全 景 图 结果 如 
图 3-12 Prax. JERR ATA SIA, Al RRC A Tal, e 
应 。 商 业 的 创建 全 景 图 像 软件 里 有 额外 的 操作 来 对 强度 进行 归 一 化 ， 并 对 平移 进行 
平和 请 场景 转换 ， 以 使 得 结 末 看 上 去 更 好 。 
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3-12: 使 用 SIFT 对 应 点 对 自动 创建 水 平 全景 图 像 : 全 部 的 全 景 图 像 (E); 对 中 心 部 分 
图 像 进 行 裁 前 后 的 图 像 (T) 


练习 


(1) 写 出 一 个 函数 ， 其 输入 参数 为 正方 形 (或 者 长 方形 ) 物体 (例如 ,一 本 书 、 一 张 
t, KERE) 图 像 的 坐标 。 然 后 ， 计 算 将 该 长 方形 映射 归 一 化 坐标 系 
中 正视 图 全 图 的 变换 。 你 可 以 使 用 ginput()， 或 者 最 强 的 Harris 角 点 来 发 现 长 方 
形 物体 的 稳健 性 角 点 。 

(2) 写 出 一 个 函数 ， 对 于 如 图 3-1 所 示 的 扭曲 能 够 正确 地 找到 alpha AR. 

(3) 在 你 自己 的 数据 集中 找 出 包含 三 个 公共 的 标记 物 〈 像 人 脸 例子 一 样 ， 或 者 使 用 著 
BRA, ARIER) 的 那个 。 创 建 对 齐 后 的 图 像 ， 其 中 这 些 标 记 物 在 同 
一 个 位 置 上 。 计 算 平均 和 中 值 图 像 ， 然 后 可 视 化 。 

(4) 进行 亮度 归 一 化 操作 ， 找 出 在 全 景 图 像 例 子 中 更 好 地 拼接 图 像 的 方法 。 该 方法 能 
够 去 除 图 3-12 中 的 边缘 效应 。 

(5) 与 将 图 像 扭 曲 到 中 心 图 像 上 不 同 ， 全 景 图 像 可 以 通过 将 图 像 扭 曲 到 圆柱 体 上 来 创 
建 。 试 着 在 图 3-12 的 例子 中 使 用 该 方式 创建 全 景 图 像 。 

(6) 使 用 RANSAC 算法 来 找到 一 些 主 要 的 正确 单 应 性 矩阵 集合 。 一 个 简单 的 方式 
是 ， 自 先 运 行 一 次 RANSAC 算法 ， 找 到 具有 最 大 一 人 致 子 集 的 单 应 性 和 矩阵， 然后 
将 与 该 单 应 性 和 矩阵 一 致 的 对 应 点 对 从 匹配 集合 中 删除 ， 再 运行 RANSAC 算法 找 
到 下 一 个 最 大 的 集合 ， 以 此 类 推 。 

(7) 修改 单 应 性 矩阵 的 RANSAC 估计 算法 ,来 使 用 三 个 对 应 点 对 计算 仿 射 变换 。 使 
用 该 算法 来 判断 图 像 对 之 间 是 否 包 仿 平 面 场景 ， 例 如 使 用 正确 点 的 个 数 。 对 于 仿 
射 变化 ， 平 面 场景 中 正确 点 的 个 数 会 很 多 。 

(8) 通过 匹配 局 部 特征 ， 以 及 使 用 最 小 二 乘 刚体 配 准 ， 用 多 个 图 像 〈 人 例如， 从 Flickr 
TA) 创建 一 个 全 景 图 (http://en.wikipedia.org/wiki/Panography ) 。 
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照相 机 模型 与 增强 现实 





本 革 中 ， 我 们 将 尝试 对 照相 机 进行 建 模 ， 并 有 效 地 使 用 这 些 模 型 。 在 之 前 的 革 届 里， 
我 们 已 经 讲述 了 图 像 到 图 像 之 间 的 上 映射 和 变换 。 为 了 处 理 三 维 图 像 和 平面 图 像 之 间 
的 映射 ， 我 们 需要 在 映射 中 加 入 部 分 照相 机 产生 图 像 过 程 的 投影 特性 。 本 半 中 我 们 
将 会 讲述 如 何 确定 照相 机 的 参数 ， 以 及 在 具体 应 用 中 ， 如 增强 现实 ， 如 何 使 用 图 像 
间 的 投影 变换 。 下 一 章 中 ， 我 们 将 使 用 照相 机 模型 处 理 其 他 一 些 应 用 ， 比 如 多 视图 
及 其 映射 。 


4.1 针 孔 照相 机 模型 


针 孔 照相 机 模型 《有 时 称 为 射影 照相 机 模型 ) 是 计算 机 视觉 中 广泛 使 用 的 照相 机 模 
型 。 对 于 大 多 数 应 用 来 说 ， 儿 和 孔 照 相机 模型 简单 ， 并 且 具 有 足够 的 精确 度 。 这 个 名 
字 来 源 于 一 种 类 似 上 暗箱 机 的 照相 机 。 该 照相 机 从 一 个 小 孔 采 集 射 到 暗箱 内 部 的 光线 。 
在 针 孔 照相 机 模型 中 ， 在 光线 投影 到 图 像 平 面 之 前 ， 从 唯一 一 个 点 经 过 ， 也 就 是 
照相 机 中 心 C。 图 4-1 为 从 照相 机 中 心 前 画 出 图 像 平面 的 图 解 。 事 实 上 ， 在 真实 的 
照相 机 中 ， 图 像 平 面 位 于 照相 机 中 心 之 后 ， 但 是 照相 机 的 模型 和 图 4-1 的 模型 是 一 
样 的 。 
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图 4-1: 针 孔 照相 机 模型 。 图 像 点 x 是 由 图 像 平 面 与 连接 三 维 点 X 和 照相 机 中 心 C 的 直线 相 
交 而 成 的 。 虚 线 表示 该 照相 机 的 光学 坐标 轴 


由 图 像 坐 标 轴 和 三 维 坐 标 系 中 的 x GHA y 轴 对 齐 平行 的 假设 ， 我 们 可 以 得 出 针 和 孔 照 
相机 的 投影 性 质 。 照 相机 的 光学 坐标 轴 和 z 轴 一 致 ， 该 投影 几何 可 以 简化 成 相似 三 
角形 。 在 投影 之 前 通过 旋转 和 平移 变换 ， 对 该 坐标 系 加 入 三 维 点 ， 会 出 现 完整 的 投 
影 变 换 。 感 兴趣 的 读者 可 以 查阅 文献 [13]、[25] 和 [26]. 


在 针 孔 照相 机 中 ， 三 维 点 X 投影 为 图 像 点 x (两 个 点 都 是 用 齐 次 坐标 表示 的 )， 如 下 
所 未: 





Ax = PX (4.1) 


i, 3x4HJ ERE PO ta Use TE (或 投影 矩阵 )。 注 意 ， 在 齐 次 坐标 系 中 ， 三 维 
点 XX 的 坐标 由 4 个 元 素 组 成 ，X=[X, Y, Z, Wl REWE AE SERRE. AM 
果 我 们 打算 在 齐 次 坐标 中 将 最 后 一 个 数值 归 一 化 为 1， 那么 就 会 使 用 到 它 


4.1.1 BABA AES 
照相 机 矩阵 可 以 分 解 为 : 


P=K{R{t] (4.2) 





其 中 , R 是 描述 照相 机 方向 的 旋转 矩阵 ，t 是 描述 照相 机 中 心 位 置 的 三 维 平移 向 量 ， 
内 标定 下 了 泗 玉 描述 照相 机 的 投影 性 质 。 


标定 矩阵 仅 和 照相 机 自重 的 情况 相关 ， 通 篆 情 况 下 可 以 写成 : 





K= 





af S C 
ore) 
001 





图 像 平 面 和 照相 机 中 心间 的 距离 为 焦距 大 SRR ER E at EAT Me, RE 
HAMR SA s。 在 大 多 数 情况 下 ，s 可 以 设置 成 0。 也 就 古 说 : 

f 
=|0 
0 0 I 





0 e 
f | (4.3) 
这 里 ， 我 们 使 用 了 另外 的 记号 和 天， 两 者 关系 为 f=af。 


纵横 比例 参数 a 是 在 像 达 元 过 韭 正方 形 的 情况 下 使 用 的 。 通 篆 情 况 下 ， 我 们 可 以 默 
认 设 置 a=1。 经 过 这 些 假 设 ， 标定 矩阵 变 为 : 


SOG 
0 =f se; 
00 1 


K = 





除 焦 跑 之 外 ， 标 定 和 矩阵 中 剩余 的 唯一 参数 为 光 心 (有 时 称 主 点 ) 的 坐标 ce=[c,，c,]， 
也 就 征 光 线 坐 标 轴 和 图 像 平面 的 交 扣 。 因 为 光 心 通 间 在 图 像 的 中 心 ， 并 且 图 像 的 坐 
标 是 从 左上 和 角 开 始 计算 的 ， 所 以 光 心 的 坐标 津 接 近 于 图 像 宽度 和 高 度 的 一 半 。 特 别 
强调 一 把 ， 在 这 个 例子 中 ， 唯 一 未 知 的 变量 是 焦距 f。 


4.1.2 ”三维 点 的 投影 
下 面 来 创建 照相 机 类 ， 用 来 处 理 我 们 对 照相 机 和 投影 建 模 所 需要 的 全 部 操作 : 








from scipy import linalg 


class Camera(object): 


“和 示 示 针 孔 照相 机 的 类 "” 


def- init (selt,P): 
"hate P = K[RIt] 照相 机 模型 """ 
Se 下 =P 
self.K = None # 标定 和 失 阵 
self.R = None # 旋转 
self.t = None # 平移 
self.c = None # 照相 机 中 心 


def project(self,X): 
X (4x n 的 数组 ) 的 投影 点 ， 并 且 进 行 坐标 归 一 化 " 
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x = dot(self.P,X) 
for i in range(3): 

XK] c= x2] 
return x 


下 面 的 例子 展示 如 何 将 三 维 中 的 点 投影 到 图 像 视图 中 。 在 这 个 例子 中 ， 我 们 将 使 用 
牛津 多 视图 数据 集中 的 “Model Housing” 数 据 集 ， 可 以 从 http://www.robots.ox.ac. 
uk/~vgg/data/data-mview.html 下 载 。 下 载 这 些 三 维 几 何 图 像 文 件 ， 然 后 将 house.p3d 
文件 复制 到 你 的 工作 目 永 里 : 


import camera 


H 载 和 人 点 
points = loadtxt('house.p3d').T 
points = vstack((points,ones(points.shape[1]))) 


# 设置 照相 机 参数 
P = hstack((eye(3),array([[0],[0],[-10]]))) 
cam = camera.Camera(P) 


x = cam.project(points) 


# 绘制 投影 

figure() 

plot (x[0l, x(t] Ke 
show( ) 


首先 ， oo We aaa 个 投影 矩阵 来 创建 Camera 
对 象 将 这 些 三 维 点 投影 到 图 像 平 面 并 执行 绘制 操作 ， 输 出 结 末 如 图 4-2 中 间 图 像 
所 示 。 


为 了 研究 照相 机 的 移动 会 如 何 改变 投影 的 效 末 ， 你 可 以 使 用 下 面 的 代码 。 该 代码 围 
绕 一 个 随机 的 三 维 向 量 ， 进 行 增 量 旋转 的 投影 。 


# 创建 变换 
r = 0.05*random.rand(3) 
rot = camera.rotation matrix(r) 





# 旋转 矩阵 和 投影 

figure() 

for t in range(20): 
cam.P = dot(cam.P, rot) 
x = cam.project(points) 
plot(x[0],x[1],"k.*) 





show() 


ee 我 们 使 用 了 rotation matrix() 函数 ， 该 函数 能 够 创建 围绕 一 个 问 
进行 三 维 旋转 的 旋转 矩阵 〈 将 该 国 数 添加 到 camera.py 文件 中 ) : 


def rotation matrix(a): 
" 创建 一 个 用 于 围绕 向 量 a Se PRAY = EERE """ 
R = eye(4) 
R[:3,:3] = linalg.expm([[0,-a[2],a[1]],[a[2],0,-a[0]],[-a[1],a[o],0]]) 
return R 





图 4-2 所 示 分 别 为 序列 中 的 一 幅 图 像 、 三 维 点 的 投影 ， 以 及 这 些 点 围绕 一 个 随机 问 
量 旋 转 后 三 维 点 投影 的 轨迹 。 运 行 该 代码 几 次 ， 进 行 不 同 的 随机 旋转 之 后 ， 你 会 对 
扎 在 投影 中 如 何 旋转 有 一 些 感觉。 











图 4-2; operons 样本 图 像 (Z): 图 像 视图 中 投影 后 的 点 (P); 经 过 照相 机 旋转 后 
及 影 点 的 轨迹 ( 右 ) 。 数 据 来 自 于 牛津 “Model House” AES 


4.1.3 ”照相 机 和 矩阵 的 分 解 


如 末 给 定 如 方程 (4.2) 所 示 的 照相 机 算 阵 己 ， 我 们 需要 恢复 内 参数 天 以 及 照相 机 的 
位 置 t 和 姿势 R。 算 阵 分 块 操作 称 为 因子 分 解 。 这 里 ， 我 们 将 使 用 一 种 矩阵 因子 分 
解 的 方法 ， 称 为 RQ 因子 分 解 。 


将 下 面 的 方法 添加 到 Camera 类 中 : 


def factor(self): 
"将 照相 机 和 拖 阵 分 解 为 K、R、t， 其 中 ，P = K[R|t] """ 


# 分 解 前 3 x3 的 部 分 
K,R = linalg.rq(self.P[:,:3]) 


# 将 K 的 对 角 线 元 素 设 为 正 值 

T = diag(sign(diag(K))) 

if linalg.det(T) < O: 
Thigh) “= 24 
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self.K = dot(K,T) 
self.R = dot(T,R) # 工 的 逆 矩 阵 为 其 自身 
self.t = dot(linalg.inv(self.K),self.P[:,3]) 





return self.K, self.R, self.t 


RQ 因子 分 解 的 结 来 并 不 是 唯一 的 。 在 该 因子 分 解 中 ,分 解 的 结 来 存在 符号 二 义 性 。 
由 于 我 们 需要 限制 旋转 矩阵 R 为 正定 的 《否则 ， 旋 转 坐 标 轴 即 可 ) ， 所 以 如 采 需 要 ， 
我 们 可 以 在 求解 到 的 结 末 中 加 入 变换 了 来 改变 符 扎 。 


在 示例 照相 机 上 运行 下 面 的 代码 ， 观 罕 照 相机 箱 阵 分 解 的 效 末 : 





import camera 


K = array([[1000,0,500],[0,1000, 300],[0,0,1]]) 
tmp = camera.rotation matrix([0,0,1])[:3,:3] 
Rt = hstack((tmp, array([{[50],[40],[30]]))) 

cam = camera.Camera(dot(K,Rt) ) 


print K, Rt 
print cam. factor() 


你 会 在 控制 人 台 上 得 到 相同 的 输出 。 


4.1.4 计算 照相 机 中 心 
给 定 照 相机 投影 矩阵 了， 我 们 可 以 计算 出 空间 上 照相 机 的 所 在 位 置 。 照 相机 的 中 心 
C， 是 一 个 三 维 点 ， 满 足 约束 PC=0。 对 于 投影 矩阵 为 PK[R 的 照相 机 ， 有 : 


K[R|t]C = K RC+Kt=0 
照相 机 的 中 心 可 以 由 下 述 式 子 来 计算 : 
C=—R't 
注意 ， 如 预期 一 样 ， 照 相机 的 中 心 和 内 标定 矩阵 无 关 。 


下 面 的 代码 可 以 按照 上 面 公式 计算 照相 机 的 中 心 。 将 其 添加 到 Camera 类 中 ， 该 方法 


def center(self): 
"u 计算 并 返回 照相 机 的 中 心 """ 


if self.c is not None: 





return self.c 

else: 
# 通过 因子 分 解 计 算 c 
self.factor() 
self.c = -dot(self.R.T,self.t) 
return self.c 


上 面 的 一 些 方法 构成 了 Camera 类 的 基本 国 数 操作 。 现 在 ， 让 我 们 一 起 探讨 如 何 使 用 
针 筷 照相 机 模型 。 


4.2 ”照相 机 标定 


标定 照相 机 是 指 计算 出 该 照相 机 的 内 参数 。 在 我 们 的 例子 中 ， 是 指 计算 矩阵 K。 如 
果 你 的 应 用 要 求 高 精度 ， 那 么 可 以 扩展 该 照相 机 模型 ,使 其 包含 径 同 畸变 和 其 他 
条 件 。 对 于 大 多 数 应 用 来 说 ， 公 式 (4.3) 中 的 简单 照相 机 模型 已 经 足够 。 标 定 照 
相机 的 标准 方法 是 ， 哲 摄 多 幅 平 面 棋盘 模式 的 图 像 ， 然 后 进行 处 理 计 算 。 例 如 ， 
OpenCV 中 的 标定 工具 使 用 了 这 种 方法 ( 详 见 文献 [3])。 


4.2.1 一 个 简单 的 标定 方法 

这 里 我 们 将 要 介绍 一 个 简单 的 照相 机 标定 方法 。 大 多 数 参 数 可 以 使 用 基本 的 假设 来 
设 定 〈 正 方形 垂直 的 像素 ， 光 心 位 于 图 像 中 心 )， 比 较 难 处 理 的 是 获得 正确 的 焦距 。 
对 于 这 种 标定 方法 ， 你 需要 准备 一 个 平面 矩形 的 标定 物体 (一 个 书本 即 可 )、 用 于 测 
量 的 卷 尺 和 直 尺 ， 以 及 一 个 平面 。 下 面 是 具体 操作 步骤 : 


。 测量 你 选 定 抵 形 标定 物体 的 边 长 LX 和 dY; 

。 将 照相 机 和 标定 物体 放置 在 平面 上 ， 使 得 照相 机 的 背面 和 标定 物体 平行 ， 同 时 物 
体位 于 照相 机 图 像 视 图 的 中 心 ， 你 可 能 需要 调整 照相 机 或 者 物体 来 获得 民 好 的 对 
FTA 

。 测量 标定 物体 到 照相 机 的 距离 dZ; 

。 拍摄 一 副 图 像 来 检验 该 设置 是 否 正确 ， 即 标定 物体 的 边 要 和 图 像 的 行 和 列 对 齐 ; 

。 使 用 像 系 数 来 测量 标定 物体 图 像 的 宽度 和 高 度 dx 和 dy. 


实验 设置 情况 如 图 4-3 所 示 。 现 在 ， 使 用 下 面 的 相似 三 角形 (参见 图 4-1) 关系 可 以 
多 得 焦距 : 














二 _ dy 
fog, fata 
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图 4-3: 简单 的 照相 机 标定 设置 : 进行 标定 实验 使 用 的 设置 情 抑 图 像 〈 左 ) ; 用 于 标定 的 图 像 
( 右 )。 在 图 像 中 测量 标定 物体 的 宽度 和 高 度 ， 以 及 设置 中 标定 物体 的 实际 物理 尺寸 ， 就 可 以 
确定 焦距 的 大 小 


对 于 如 图 4-3 所 示 的 特定 设置 ， 物 体 宽度 和 高 度 的 测量 值 分 别 为 130 mm 和 185 mm, 
则 ，dX=130，d7=185。 从 照相 机 到 物体 的 距离 为 460 mm， 则 dZ=460。 你 可 以 使 用 
任意 的 测量 单位 ， 只 有 测量 值 的 比例 才 影 响 最 终 焦 跑 的 计算 。 你 可 以 使 用 ginput() 
函数 来 获得 图 像 中 的 4 个 点 ， 图 像 中 物体 的 宽度 和 高 度 分 别 为 722 和 1040 像素 。 
将 这 些 值 代入 上 面 的 关系 表达 式 可 以 获得 焦 跑 的 大 小 : 

大 = 2555, f = 2586 
值得 注意 的 是 ， 我 们 现在 获取 的 焦 中 是 在 特定 图 像 分 辨 率 下 计算 出 来 的 。 在 这 个 例 
子 中 ， 图 像 大 小 为 2592 x 1936 像素 。 记 住 ， 焦 距 和 交心 是 使 用 像素 来 度量 的 ， 其 
尺度 和 图 像 分 辩 率 相关 。 如 果 你 使 用 其 他 的 图 像 分 辩 率 来 拍摄 〈 例 如 ， 一 个 缩 略图 
像 ) ， 那 么 这 些 值 都 会 改变 。 将 照相 机 的 这 些 测 量 数值 写 入 到 一 个 如 下 所 示 的 辅助 函 
数 中 ， 会 方便 一 些 : 


def my calibration(sz): 





row,col = sz 

fx = 2555*co1l/2592 
fy = 2586*row/1936 
K = diag([fx, fy,1]) 
K[0,2] = 0.5*col 
K[1,2] = 0.5*row 
return K 


IZ PRB AT A ZB BA Ze RAD ITC, RB A pee FARE. E, BAB 





大 多 数 普 通 照 相机 来 说 ， 这 样 做 古 可 以 的 。 注 意 ， 这 里 的 标定 是 对 于 横向 旋转 的 图 
像 。 对 于 纵 癌 旋转 ， 你 需要 交换 标定 矩阵 中 焦距 的 值 。 我 们 会 保留 上 面 的 这 个 函数 ， 
方便 在 下 面 的 草 贡 中 使 用 。 





4.3 ”以 平面 和 标记 物 进 行 姿 态 估计 

在 第 3 章 中 ， 我 们 学 习 了 如 何 从 平面 间 估计 单 应 性 和 矩阵。 如果 图 像 中 包含 平面 状 的 
标记 物体 ， 并 且 已 经 对 照相 机 进行 了 标定 ， 那 么 我 们 可 以 计算 出 照相 机 的 姿态 ( 旋 
转 和 平移 )。 这 里 的 标记 物体 可 以 为 对 任何 平坦 的 物体 。 


我 们 使 用 一 个 例子 来 泪 示 如 何 进行 姿态 估计 。 这 里 借助 图 4-4 中 顶端 的 两 幅 图 像 。 
我 们 使 用 下 面 的 代码 来 提取 两 幅 o SIFT 特征 ， 然 后 使 用 RANSAC 算法 稳健 地 
估计 单 应 性 矩阵: 








import homography 
import camera 
import sift 


# 计算 特征 
sift.process image('book frontal.JPG','imo.sift') 
10,d0 = sift.read features from file('imo.sift') 


sift.process image('book perspective.JPG','im1.sift') 
l1,d1 = sift.read features from file('im1.sift') 


# 匹配 特征 ， 并 计算 单 应 性 算 阵 

matches = sift.match twosided(do,d1) 

ndx = matches.nonzero() [o] 

fp = homography.make_homog(lo[ndx,:2].T) 
ndx2 = [int(matches[i]) for i in ndx] 

tp = homography.make_homog(l1[ndx2,:2].T) 


model = homography.RansacModel() 
H = homography.H from ransac(fp,tp,model) 


MERMA TMERRE, 1B PEE ee — A Re i (在 这 个 例子 中 ， 
标记 物 是 指 书本 ) LARRY SIA RRA A PRITE AY = e 
坐标 系 ， 使 标记 物 在 系 了 平面 上 〈Z=0)， 原 点 在 标记 物 的 某 位 置 上 。 


为 了 检验 单 应 性 矩阵 结果 的 正确 性 ， 我 们 需要 将 一 些 简 单 的 三 维 物体 放置 在 标记 物 
上 ， 这 里 我 们 使 用 一 个 立方 体 。 你 可 以 使 用 下 面 的 函数 来 产生 立方 体 上 的 扩 : 





ae _points(c,wid): 
" 创建 用 于 绘制 立方 体 的 一 个 点 列表 (前 5 个 点 是 底部 的 正方 形 ， 一些 边 重合 了 )""" 
oa i 
# 底部 
p.append([c[0]-wid,c[1]-wid,c[2]-wid]) 
p.append([c[0]-wid, c[1]+wid,c[2]-wid]) 
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p.append([c[0]+wid, c[1]+wid, c[2]-wid]) 
p.append([c[0]+wid,c[1]-wid,c[2]-wid]) 
p.append([c[0]-wid,c[1]-wid,c[2]-wid]) # 为 了 绘制 闭合 图 像 ， 和 第 一 个 相同 
# 顶部 

p.append([c[0]-wid,c[1]-wid,c[2]+wid]) 

p.append([c[0]-wid, c[1]+wid,c[2]+wid]) 

p.append([c[0]+wid, c[1]+wid,c[2]+wid]) 

p.append([c[0]+wid, c[1]-wid,c[2]+wid]) 
p.append([c[0]-wid,c[1]-wid,c[2]+wid]) # 为 了 绘制 闭合 图 像 ， 和 第 一 个 相同 
# 竖 直 边 

p.append([c[0]-wid,c[1]-wid, c[2]+wid]) 

p.append([c[0]-wid,c[1]+wid, c[2]+wid]) 

p.append([c[0]-wid,c[1]+wid, c[2]-wid]) 

p.append([c[0]+wid, c[1]+wid, c[2]-wid]) 

p.append([c[0]+wid, c[1]+wid, c[2]+wid]) 

p.append([c[0]+wid,c[1]-wid, c[2]+wid]) 
p.append([c[0]+wid,c[1]-wid,c[2]-wid]) 


return array(p).T 


在 上 面 的 函数 中 ， 一 些 数据 点 会 重复 出 现 ，plot() 函数 会 绘制 出 漂亮 的 立方 体 。 
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图 4-4: 使 用 平面 物体 作为 标记 物 ， 来 计算 用 于 新 视图 投影 起 阵 的 例子 。 将 图 像 的 特征 和 对 
齐 后 的 标记 匹配 ， 计 算出 单 应 性 窍 阵 ， 然 后 用 于 计算 照相 机 的 姿态 。 带 有 一 个 灰色 正方 形 区 
域 的 模板 图 像 (左上 ) ;从 未 知 视角 拍摄 的 一 幅 图 像 ， 该 图 像 包 含 同一 个 正方 形 ， 该 正方 形 
已 经 经 过 估计 的 单 应 性 息 阵 进行 了 变换 (GE); 使 用 计算 出 的 照相 机 和 矩阵 变换 立方 体 (下 ) 





有 了 单 应 性 矩阵 和 照相 机 的 标定 矩阵 ， 我 们 现在 可 以 得 出 两 个 视图 间 的 相对 变换 : 


# 计算 照相 机 标定 矩阵 
K = my_calibration((747,1000) ) 


# 位 于 边 长 为 0.2，z=0 平面 上 的 三 维 点 
box = cube points([0,0,0.1],0.1) 


# 投影 第 一 幅 图 像 上 底部 的 正方 形 

camı = camera.Camera( hstack((K,dot(K,array([[0],[0],[-1]])) )) ) 
# 底部 正方 形 上 的 点 

box cam1 = cam1.project(homography.make_homog(box[:,:5])) 


# 使 用 H 将 点 变换 到 第 二 幅 图 像 中 


box trans = homography.normalize(dot(H,box_cam1) ) 


# 从 cama 和 H 中 计算 第 二 个 照相 机 和 矩阵 

cam2 = camera.Camera(dot(H,cam1.P)) 

A = dot(linalg.inv(K),cam2.P[:, :3]) 

Avs array ((Al-7;0]A[ 251] xcross(Al2, Ol A 241) ]) 37 
CAMP [| Sdot KA) 


# 使 用 第 二 个 照相 机 和 矩阵 投影 


box cam2 = cam2.project(homography.make homog(box)) 


# 测试 将 点 投影 在 z=0 上 ， 应 该 能 够 得 到 相同 的 点 
pointes arran [1545051] ysT 

print homography.normalize(dot(dot(H,cam1.P),point) ) 
print cam2.project(point) 





这 里 我 们 使 用 图 像 的 分 辩 率 为 747 x 1000， 第 一 个 产生 的 标定 矩阵 就 是 在 该 图 像 分 
辩 率 大 小 下 的 标定 矩阵 。 下 面 ， 我 们 在 原点 附近 创建 立方 体 上 的 点 。cube_points() 
畏 数 产生 的 前 五 个 点 对 应 于 了 立方 体 底 部 的 点 ， 在 这 个 例子 中 对 应 于 位 于 标记 物 上 
Z=0 平面 内 的 点 。 第 一 幅 图 像 (图 4-4 左上 ) 是 书本 的 主 视图 ， 我们 将 其 作为 这 个 
例子 中 的 模板 图 像 。 因 为 场景 坐标 的 尺度 是 任意 的 ， 所 以 我 们 使 用 下 面 的 矩阵 来 创 
建 第 一 个 照相 机 : 











其 中 ， 图 像 的 坐标 轴 和 照相 机 是 对 齐 的 ， 并 且 放 秆 在 标记 物 的 正 上 方 。 将 前 5 个 三 维 
尽 投 影 到 图 像 上 。 有 了 估计 出 的 单 应 性 和 矩阵， 我 们 可 以 将 其 变换 到 第 二 幅 图 像 上 。 绘 
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制 出 变换 后 的 图 像 ， 并 在 同样 的 标记 物 位 置 绘制 出 这 些 点 (如 图 4-4 右上 所 示 )。 
现在 ， 结 合 P 和 五 构建 第 二 幅 图 像 的 照相 机 和 矩 阵 : 
P,=HP, 


该 算 阵 将 标记 平面 Z=0 上 的 点 变换 到 正确 的 位 置 。 也 就 古 说 ，P, 矩阵 的 前 两 列 和 第 
四 列 是 正确 的 。 由 于 我 们 知道 前 3 x 3 FEDER IAA KR, HH R 是 旋转 矩阵 ， 所 以 
我 们 可 以 将 书 乘 以 标定 和 矩阵 的 着 ， 然 后 将 第 三 列 符 换 为 前 两 列 的 交叉 乘积 ， 以 此 来 
恢复 第 三 列 。 


作为 合理 性 验证 ， 我 们 可 以 使 用 新 矩阵 投影 标记 平面 的 一 个 点 ， 然 后 检查 投影 后 的 
扎 征 否 与 使 用 第 一 个 照相 机 和 单 应 性 矩阵 变换 后 的 点 相同 。 你 会 发 现 ， 榨 制 侣 上 得 
到 了 相同 的 输出 结 采 。 


你 可 以 用 如 下 所 示 的 代码 来 可 视 化 这 些 投影 后 四 扩 : 








imo = array(Image.open('book frontal.JPG')) 
im1 = array(Image.open('book perspective.JPG')) 


# 底部 正方 形 的 二 维 投影 

figure() 

imshow(imo ) 

plot(box cam1[0,:|,box cam1[1,:|,linewidth=3) 


# 使 用 H 对 二 维 投 影 进行 变换 

figure() 

imshow(im1) 

plot(box_trans[0,:],box trans[1,:], linewidth=3) 
# =AE AR 

figure() 

imshow(im1 ) 
plot(box_cam2[0,:],box_cam2[1,:],linewidth=3) 


show( ) 


该 代码 绘制 出 如 图 4-4 所 示 的 三 幅 图 像 。 为 了 能 够 在 后 面 的 例子 中 再 次 使 用 这 些 计 
算 的 结果 ， 我 们 可 以 使 用 Pickle 将 这 些 照 相机 和 矩阵 保存 起 来 : 


import pickle 
with open('ar_camera.pkl','w') as f: 


pickle. dump(K, f) 
pickle. dump(dot(linalg.inv(K),cam2.P),f) 








现在 我 们 已 经 学 会 计算 给 定 平 面 场景 物体 的 照相 机 和 矩阵。 我 们 结合 特征 匹配 和 单 
应 性 和 矩阵， 以 及 照相 机 标定 技术 ， 人 简单 演示 了 如 何在 一 幅 图 像 上 放置 一 个 立方 体 。 
有 了 照相 机 的 姿态 估计 技术 ， 我 们 现在 就 具备 了 创建 简单 增强 现实 应 用 的 基本 技 
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4.4 ”增强 现实 


增强 现实 (Augmented Reality, AR) 是 将 物体 和 相应 信息 放置 在 图 像 数 据 上 的 一 
系列 操作 的 总 称 。 最 经 典 的 例子 是 放置 一 个 三 维 计算 机 图 形 学 模型 ， 使 其 看 起 来 属 
于 该 场景 ， 如 果 在 视频 中 ， 该 模型 会 随 着 照相 机 的 运动 很 自然 地 移动 。 如 上 一 节 所 
示 ， 给 定 一 幅 带 有 标记 平面 的 图 像 ， 我 们 能 够 计算 出 照相 机 的 位 置 和 姿态 ， 使 用 这 
些 信息 来 放置 计算 机 图 形 学 模型 ， 能 够 正确 表示 它们 。 在 本 章 的 最 后 一 节 ， 我 们 将 
介绍 如 何 建立 一 个 简单 的 增强 现实 例子 。 其 中 ， 我 们 会 用 到 两 个 工具 包 : PyGame 
和 PyOpenGL, 








4.4.1 PyGame 和 PyOpenGL 

PyGame 是 非常 流行 的 游戏 开发 工具 包 ， 它 可 以 非常 简单 地 处 理 显示 窗口 、 输 入 设 
备 、 事 件 ， 以 及 其 他 内 容 。PyGame 是 开源 的 ， 可 以 从 http://www.pygame.org/ 下 
载 。 事 实 上 ， 它 是 一 个 Python 绑 定 的 SDL 游戏 引擎 。 你 可 以 查看 附录 A 来 获取 
关于 安装 的 帮助 。 你 还 可 以 查看 文献 [21] 来 获取 关于 PyGame 工具 包 的 更 多 编程 
AREE 





PyOpenGL 是 OpenGL 图 形 编 程 的 Python 绑 定 接口 。OpenGL 可 以 安装 在 几乎 所 
有 的 系统 上 ， 并 且 具 有 很 好 的 图 形 性 能 。OpenGL 具有 跨 平 台 性 ， 能 够 在 不 同 的 操 
作 系 统 之 则 工作 。 关 于 OpenGL 的 更 多 信息 ， 参 见 http://www.opengl.org/。 在 开 
始 页 面 (http://www.opengl.org/wiki/Getting_started)， 有 人 针对 初学 者 的 很 多 资源 。 
PyOpenGL 是 开源 的 ， 并 且 易 于 安装 。 你 可 以 从 附 好 A 了 解 关 于 PyOpenGL 更 多 内 
容 。 你 同样 可 以 在 项 目 网 页 http://pyopengl.sourceforge.net/ 获取 更 多 细 市 内 容 。 


BUSA MER F OpenGL 编程 的 绝 大 部 分 内 容 。 相 反 ， 我 们 在 这 里 只 讲述 重要 的 
内 容 ， 例 如 如 何在 OpenGL 中 使 用 照相 机 和 匹 阵 ， 如 何 设置 一 个 基本 的 三 维 模型 。 你 
可 以 从 PyOpenGL-Demo 工具 包 (http://pypi.python.org/pypi/PyOpenGL-Demo) 获取 
一 些 很 好 的 例子 和 演示 。 如 果 你 不 熟悉 PyOpenGL， 那 么 该 工具 包 征 个 很 好 的 开始 。 


我 们 使 用 OpenGL 将 一 个 三 维 模 型 放置 在 一 个 场景 中 。 为 了 使 用 PyGame 和 
PyOpenGL 工具 包 来 完成 该 应 用 ， 需 要 在 脚本 的 开始 部 分 载 和 下面 的 命令 : 








照相 机 模型 与 增强 现实 | 97 


from OpenGL.GL import * 
from OpenGL.GLU import * 
import pygame, pygame. image 
from pygame.locals import * 


你 可 以 看 到 ， 这 里 主要 使 用 OpenGL 中 的 两 个 部 分 : GL 部 分 包含 所 有 以 “gl” 开 
头 的 函数 ， 其 中 包含 我 们 需要 的 大 部 分 国 数 ;，GLU ae > 是 OpenGL 的 实用 国 数 库 ， 
里 面包 含 了 一 些 高 层 的 函数 。 我 们 主要 使 用 它 来 设置 照相 机 投影 。pygame 部 分 用 
来 设置 窗口 和 事件 控制 ， 其 中 pygame.image 用 来 载 入 图 像 和 创建 OpenGL 的 纹理 ， 
pygame. locals 用 来 设置 OpenGL 的 显示 区 域 。 


需要 对 一 个 OpenGL 场景 进行 两 个 部 分 的 设置 ;投影 和 视图 矩阵 的 建 模 。 让 我 们 一 
起 来 学 习 如 何 由 针 孔 照相 机 来 创建 这 些 矩 阵 。 


4.4.2 ”从 照相 机 和 矩阵 到 OpenGL 格 式 


OpenGL 使 用 4x4 的 矩阵 来 表示 变换 (包括 三 维 变 换 和 投影 )。 这 和 我 们 使 用 
的 3x4 照 相机 矩阵 略 有 差别 。 但 是 ， 照 相机 与 场景 的 变换 分 成 了 两 个 和 矩阵， 
GL_PROJECTION 46 (#40 GL_MODELVIEW 46/4, GL_PROJECTION 4# BE 4b M K] 
像 成 像 的 性 质 ， 等 价 于 我 们 的 内 标定 矩阵 KK。GL_MODELVIEW Etib Ey (As Fu HR 
相机 之 间 的 三 维 变换 关系 ， 对 应 于 我 们 照相 机 生 阵 中 的 丸和 上 部 分 。 一 个 不 同 之 处 
是 ， 假 设 照相 机 为 坐标 系 的 中 心 ，GL_MODELVIEW 矩阵 实际 上 包含 了 将 物体 放置 
在 照相 机 前 面 的 变换 。OpenGL 有 很 多 特性 ， 我 们 会 在 下 面 例子 中 一 一 讲解 。 


假设 我 们 已 经 获得 了 标定 好 的 照相 机 ， 即 已 知 标 定 从 阵 外 ， 下 面 的 函数 可 以 将 照相 
机 参数 转换 为 OpenGL 中 的 投影 矩阵 : 








def set projection from camera(K): 


“从 照相 机 标定 矩阵 中 获得 视图 "” 


glMatrixMode(GL PROJECTION) 
glLoadIdentity() 


f= KLO 0] 

fy = K[{1,1] 

fovy = 2*arctan(0.5*height/fy)*180/pi 
aspect = (width*ty)/(height*fx) 


# 定义 近 的 和 远 的 剪裁 平面 
near = 0.1 
far = 100.0 





JJG ED 


E 设 定 透视 
gluPerspective(fovy, aspect, near, far) 
glViewport(0,0,width, height) 


我 们 假设 标定 矩阵 如 (4.3) ARE RE, JE DAA RAN AUD. FP eR 
glMatrixMode() i LEERE ik BA GL_PROJECTION, 7% PEW AT SSE LLIK PB 
阵 。 SRI, glloadIdentity() BCH AAEM Be E ARMEE, KEE EA A 
操作 。 然 后 ， 我 们 根据 图 像 的 高 度 、 照 相机 的 焦 跑 以 及 纵横 比 ， 计 算出 视图 中 的 垂 
直 场 。OpenGL 的 投影 同样 具有 和 近 距 离 和 迁 距离 的 裁剪 平面 来 限制 场景 拍摄 的 座 度 
汇 围 。 我 们 设置 近 深 度 为 一 个 小 的 数值 ， 使 得 照相 机 能 够 包含 最 近 的 物体 ， 而 远 深 
度 设置 为 一 个 大 的 数值 。 我 们 使 用 GLU 的 实用 函数 gluPerspective() Kix BiH? Fs 
阵 ， 将 整个 图 像 定 义 为 视图 部 分 〈 也 就 是 显示 的 部 分 )。 和 下 面 的 模拟 视图 国 数 相 
似 ， 你 可 以 使 用 glLoadMatrixf() 国 数 的 一 个 选项 来 定义 一 个 完全 的 投影 矩阵 。 当 倘 
单 版 本 的 标定 矩阵 不 够 好 时 ， 可 以 使 用 完全 投影 算 阵 。 


模拟 视图 矩阵 能 够 表示 相对 的 诈 转 和 平移 ， 该 变换 将 该 物体 放置 在 照相 机 前 CCR 
古 照 相机 在 原点 上 )。 模 拟 视 图 矩阵 是 个 典型 的 4x4 和 矩阵 ， 如 下 所 示 : 


R t 
0 1 
其 中 ，R 是 旋转 矩阵 ， 列 向 量 表示 3 AERD, t 征 平 移 同 量 。 当 创建 模拟 视 


图 矩阵 时 ， 旋 转 矩 阵 需 要 包括 所 有 的 旋转 (物体 和 坐标 系 的 旋转 )， 可 以 将 单个 旋转 
分 量 相 乘 来 狄 得 旋转 矩阵 。 


下面 的 国 数 实现 如 何 获得 移 除 标定 矩阵 后 的 3x4 针 孔 照 相机 矩阵 〈 将 已 和 大” 相 
Fe), ， 并 创建 一 个 模拟 视图 : 











def set_modelview from camera(Rt) : 


"e 从 照相 机 姿态 中 获得 模拟 视图 矩阵 """ 


glMatrixMode(GL MODELVIEW) 
glLoadIdentity() 


# 围绕 x 轴 将 茶壶 旋转 90 HE, 使 z 轴 间 上 
Rx = array([[1,0,0],[0,0,-1],[0,1,0]]) 


# 获得 旋转 的 最 佳 逼近 


注 1: 这 是 个 奇怪 的 处 理 方式 ， 但 是 只 需要 处 理 GL PROJECTION 和 GL MODELVIEW 两 个 矩阵 ， 所 以 是 
可 行 的 。 
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Re IRE foe 34 

U,S,V = linalg.svd(R) 

R = dot(U,V) 

R[0,:] = -R[0,:] # 改变 x 轴 的 符号 


# 获得 平移 量 
tS RET SS] 


# 获得 4x4 的 模拟 视图 矩阵 
M = eye(4) 

M[:3,:3] = dot(R,Rx) 

ME i353]. = 


E 转 置 并 压 平 以 获取 列 序数 值 
M = M. 
m = M.flatten() 


# PE ALA R FE RAD AERE 
glLoadMatrixf(m) 


在 上 面 函 数 中 ， 我 们 首先 切换 到 GL_MODELVIEW 4624, Xa HBF, 3 
后 ， 由 于 需要 旋转 该 物体 (你 将 在 下 面 看 到 )， 所 以 我 们 创建 一 个 90 EHHE FE 
阵 。 接 下 来 ， 由 于 估计 照相 机 和 钨 阵 时 ， 可 能 会 有 错误 或 者 噪声 和 干扰， 所 以 我 们 确保 
He AE LAB BE AY Tie FR BD oy WAS ee D EFR EE, AER VERE SVD 分 解 方 法 ， 旋 转 和 矩阵 
的 最 佳 逼 近 可 以 通过 R=UTV 来 获得 。 由 于 OpenGL 中 的 坐标 系 和 上 面 用 到 的 有 点 不 
同 ， 所 以 我 们 将 * 轴 翻 转 。 然 后 ， 我 们 将 模拟 视图 矩阵 M 设置 为 旋转 矩阵 的 乘积 。 
glloadMatrixf() 国 数 通过 输入 参数 为 按 列 排列 的 16 个 数值 数组 ， 来 设置 模拟 视图 。 
将 有 年 阵 转 置 ， 然 后 压 平 并 输入 gllLoadMatrixf() IRC. 


443 ”在 图 像 中 放置 虚拟 物体 

我 们 需要 做 的 第 一 件 事 是 将 图 像 (打算 放置 虚拟 物体 的 图 像 ) 作为 背景 添加 进来 。 
在 OpenGL 中 ， 该 操作 可 以 通过 创建 一 个 四 边 形 的 方式 来 完成 ， 该 四 边 形 为 整个 视 
图 。 完 成 该 操作 最 简单 的 方式 是 绘制 出 四 边 形 ， 同 时 将 投影 和 模拟 试图 矩阵 重 置 ， 
使 得 每 一 维 的 坐标 范围 在 -1 到 1 之 间 。 


下面 的 函数 可 以 载 入 一 幅 图 像 ， 然 后 将 其 转换 成 一 个 OpenGL 纹理 ， 并 将 该 纹理 放 
置 在 四 边 形 上 











def draw _background(imname) : 


""" 使 用 四 边 形 绘制 背景 图 像 """ 





# 载 入 背景 图 像 (应 该 是 .bmp 格式 ) ， 转 换 为 OpenGL 纹理 
bg image = pygame.image.load(imname).convert() 
bg data = pygame.image.tostring(bg image, "RGBX",1) 


glMatrixMode(GL_MODELVIEW) 
glLoadIdentity() 
glClear(GL COLOR BUFFER BIT | GL DEPTH BUFFER BIT) 


H 绑 定 纹理 

glEnable(GL_TEXTURE_ 2D) 

glBindTexture(GL_TEXTURE_2D,glGenTextures (1) ) 
glTexImage2D(GL_TEXTURE_2D,0,GL_RGBA,width,height,0,GL_RGBA,GL UNSIGNED BYTE,bg data) 
glTexParameterf(GL_TEXTURE_2D,GL_ TEXTURE MAG fiLTER,GL_NEAREST) 
glTexParameterf(GL_TEXTURE_2D,GL_ TEXTURE MIN fiLTER,GL NEAREST) 


# 创建 四 方形 填充 整个 窗口 

glBegin(GL_QUADS) 

glTexCoord2f(0.0,0.0); glVertex3f(-1.0,-1.0,-1.0) 
glTexCoord2f(1.0,0.0); glVertex3f( 1.0,-1.0,-1.0) 
altex oord? f 05170) 5- eo lVertexst( 10; OD) 
glTexCoord2f(0.0,1.0); glVertex3f(-1.0, 1.0,-1.0) 
glEnd() 


# 清除 纹理 
g1lDeleteTextures (1) 


该 函数 首先 使 用 PyGame H HY — tE ph Bi oe a A — a RR, KiE E DNE A 0 E 
PyOpenGL 中 使 用 的 原始 字符 串 表 示 。 然 后 ， 重 置 模拟 视图 ， 清 除 颜 色 和 次 度 缓存 。 
接 下 来 ， 绑 定 这 个 纹理 ， 使 其 能 够 在 四 边 形 和 指定 插值 中 使 用 它 。 四 边 形 是 在 每 一 
维 分 别 为 -1 和 1 的 点 上 定义 的 。 注 意 ， 纹 理 图 像 的 坐标 是 从 0 到 1。 最后， 清除 该 
纹理 ， 避 免 其 干扰 之 后 准备 绘制 的 图 像 。 


现在 已 经 准备 好 将 物体 放置 人 场景 中 。 我 们 将 使 用 “hello world” 的 计算 机 图 形 学 
例子 ，Utah 茶壶 (http://en.wikipedia.org/wiki/Utah_teapot)。 这 个 茶 赤 有 丰富 的 历 
E, Æ GLUT 用 作 一 个 标准 形状 : 


from OpenGL.GLUT import * 
glutSolidTeapot(size) 


该 命令 产生 一 个 相对 大 小 为 size WIA ae he 。 


下 面 的 国 数 将 会 设置 颜色 和 其 他 特性 ， 产 生 一 个 红色 的 漂亮 茶壶 : 





def draw teapot(size): 
unn 在 原点 处 绘制 红色 茶壶 unn 
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glEnable(GL_LIGHTING) 
glEnable(GL_LIGHTO) 
glEnable(GL_DEPTH TEST) 
glClear(GL DEPTH BUFFER BIT) 


# Ze nllZT As ae 
glMaterialfv(GL_FRONT,GL AMBIENT, [0,0,0,0]) 
glMaterialfv(GL_FRONT,GL DIFFUSE, [0.5,0.0,0.0,0.0]) 
glMaterialfv(GL_FRONT,GL_SPECULAR,[0.7,0.6,0.6,0.0]) 
glMaterialf(GL_FRONT,GL_SHININESS,0.25*128.0) 
glutSolidTeapot (size) 


EEK BC, PY tr BT OKT 6 he Fe A — EET. XT tb A GL_LIGHTO 和 
GL_LIGHT! #, ZEA fil, Fe AREA — RI. glEnable() ria Kea OpenGL 
HY — Hee E, X HORE PEE EAS OR EE LA. SA RE By A E H 48 AY 
glDisable() KARÉK. HEP, REME, E I HR ECR FE Ze HR 
( 远 处 的 物体 不 能 绘制 在 近 处 物体 的 前 面 )， 然 后 清理 深度 缓存 。 接 下 来 ， 指 定 物体 
的 物质 特性 ， 例 如 漫 反 射 和 和 镜面 反射 颜色 。 在 最 后 一 行 代码 中 ， 将 指定 的 物质 特性 
加 入 到 Utah $E. 


4.4.4 综合 集成 
下 面 的 完整 脚本 可 以 生成 如 图 4-5 所 示 的 图 像 (假设 你 已 经 将 上 面 的 函数 添加 到 了 
同一 个 文件 中 ) : 


from OpenGL.GL import * 
from OpenGL.GLU import * 
from OpenGL.GLUT import * 
import pygame, pygame. image 
from pygame.locals import * 
import pickle 


width,height = 1000, 747 


def setup(): 
ni" 设置 窗口 和 pygame 环境 """ 
pygame.init() 
pygame.display.set_mode((width,height), OPENGL | DOUBLEBUF) 
pygame.display.set_caption('OpenGL AR demo') 


# 载 入 照相 机 数据 

with open('ar_camera.pkl','r') as f: 
K = pickle. load(f) 
Rt = pickle. load(f) 





setup() 

draw_background('book_ perspective. bmp' ) 
set projection from camera(K) 
set_modelview from camera(Rt) 
draw_teapot(0.02) 


while True: 
event = pygame.event.poll() 
if event.type in (QUIT,KEYDOWN): 
break 

pygame. display. flip() 





A A A OpenGL AR demo 





DAO OpenGL AR demo 








图 4-5: 增强 现实 。 使 用 由 特征 匹配 计算 出 的 照相 机 参数 ， 将 一 个 计算 机 图 形 学 模型 放置 在 
场景 中 的 书本 上 : 将 Utah 茶壶 按照 和 坐标 灿 对 齐 的 方式 显示 出 来 (上 ) ; 进行 合理 性 验证 ， 
查看 原点 的 位 置 (T) 
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首先 ， 该 脚本 使 用 Pickle 载 入 照相 机 标定 矩阵 ， 以 及 照相 机 和 矩阵 中 的 旋转 和 平移 
分 。 假 设 这 些 信息 已 经 按照 4.3 节 的 描述 进行 保存 。setup() 函数 会 初始 化 PyGame， 
将 窗口 设置 为 图 像 的 大 小 ， 绘 制图 像 区 域 为 两 倍 的 OpenGL 窗口 缓存 大 小 。 接 下 来 ， 
载 入 背景 图 像 ， 使 其 与 窗口 相符 。 然 后 ， 设 定 照 相机 和 模拟 视图 和 矩阵。 最后， 在 正 
确 的 位 置 上 绘制 出 茶 豆 。 


在 PyGame 中 ， 使 用 带 有 对 所 有 变化 进行 定期 询问 的 无 限 循环 来 处 理事 件 。 这 些 事 
件 可 以 为 键盘 、 忌 标 ， 或 者 其 他 。 在 这 个 例子 中 ， 我 们 检查 应 用 是 否 退 出 ， 或 者 是 
个 有 按键 按 下 ， 如 采 是 ， 则 退出 这 个 循环 。pygame.display.flip() 命令 将 会 在 屏 医 
上 绘制 出 物体 。 


程序 的 输出 结果 如 图 4-5 所 示 。 可 以 看 到 ， 物 体 的 朝向 是 正确 的 (在 图 4-4 中 ， 茶 
过 和 立方 体 的 边 是 对 齐 的 ) 。 为 了 验证 放置 的 正确 性 ， 你 可 以 通过 给 size 变量 传递 
一 个 较 小 的 数值 ， 将 茶壶 变 小 。 在 图 4-4 中 ， 和 茶壶 应 该 放置 在 靠近 立方 体 坐 标 为 [0， 
0, 0] 的 角 上 。 图 4-5 给 出 了 一 个 例子 。 





4.4.5” 载 入 模型 

EZR RAR ZA, RM Aaa Pa: 载 入 并 显示 三 维 模型 。 你 可 以 在 http:// 
www.pygame.org/wiki/OBJFileLoader 了 解 如 何在 PyGame 中 载 入 保存 在 .obj 格式 文 
件 中 的 模型 。 除 此 之 外 ， 你 还 可 以 在 http://en.wikipedia.org/wiki/Wavefront_.obj_file 
PARF .obj 以 及 其 他 相关 文件 格式 的 更 多 内 容 。 


下 面 使 用 一 个 基本 的 例子 来 说 明 其 使 用 方法 。 我 们 将 使 用 一 个 免费 的 玩具 飞机 模 
型 ， 模 型 来 自 http:Wwww.oyonale.com/modeles.php 。 下 载 其 .obj 文件 ， 然 后 保存 为 
toyplane.obj。 当 然 ， 你 也 可 以 用 任何 其 他 模型 替换 ， 下 面 的 代码 不 变 。 


假设 已 经 下 载 模型 文件 并 命名 为 objloader.py, 将 下 面 的 函数 添加 到 茶壶 例子 的 代码 
SHEAR : 











def load and draw model(tilename): 
""" BEM objloader.py, JA .obj 文件 中 装载 模型 
假设 路 径 文件 夹 中 存在 同名 的 .mtl 材料 设置 文件 """ 
glEnable(GL_LIGHTING) 
glEnable(GL_LIGHTO) 
glEnable(GL_DEPTH TEST) 
glClear(GL DEPTH BUFFER BIT) 


# 设置 模型 颜色 


注 1: 模型 由 Gilles Tran 提供 (共享 创意 许可 )。 
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glMaterialfv(GL_FRONT,GL AMBIENT, [0,0,0,0]) 
glMaterialfv(GL_FRONT,GL DIFFUSE, [0.5,0.75,1.0,0.0]) 
glMaterialf(GL_FRONT,GL SHININESS,0.25*128.0) 


# 从 文件 中 载 入 

import objloader 

obj = objloader.0BJ( filename, swapyz=True) 
glCallList(obj.gl list) 


和 前 面 一 样 ， 我 们 首先 设置 模型 的 照明 条 件 和 颜色 属性 。 接 下 来 ， 我 们 将 模型 载 入 
一 个 obj 对 象 中 ， 然 后 在 文件 中 执行 OpenGL 的 调用 。 


你 可 以 在 相应 的 .mt 文件 中 设置 纹理 和 材料 属性 。 实 际 上 ，objloader 模块 需要 一 个 
含有 材料 设置 的 文件 。 我 们 采用 仪 创建 一 个 小 材料 文件 的 实用 方法 ， 而 不 修改 脚本 。 
在 这 个 例子 中 ， 我 们 仅 指 定 了 颜色 信息 。 

使 用 下 面 的 命令 来 创建 toyplane.mtl 文件 : 


newmtl lightblue 
Kd: 055. 0675 130 
illum 1 


上 面 的 命令 将 物体 的 漫 反 射 颜色 设置 为 浅 灰 蓝 色 。 现 在 ， 确 保 将 .obj 文件 中 的 
“usemtl” FERRA: 


usemtl lightblue 

我 们 将 添加 纹理 留 作 练习 。 将 上 面 例子 中 的 draw teapot() 命令 替换 为 : 
load and draw model('toyplane.obj') 

程序 就 会 生成 如 图 4-6 所 示 的 窗口 图 像 。 


这 是 本 书 关 于 增强 现实 和 OpenGL 最 深入 的 例子 。 学 习 了 标定 矩阵、 计算 照相 机 姿 
态 、 将 照相 机 转变 成 OpenGL 格式 ， 以 及 在 场景 中 显示 模型 等 方法 ， 你 已 经 具备 了 
继续 探索 增强 现实 的 基础 。 在 下 一 市 中 ,我 们 将 在 不 使 用 标记 物 的 情况 下 ， 继 续 学 
习 照 相机 模型 ， 计 算 三 维 结构 以 及 照相 机 姿态 。 
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图 4-6: 从 .obj 文件 载 入 三 维 模型 ， 并 使 用 由 特征 匹配 计算 出 的 照相 机 参数 将 其 放置 在 书 
AE 


练习 


(1) 修改 用 于 图 4-2 运动 的 示例 代码 ， 使 其 能 够 对 后 而 非 照 相机 进行 变换 ， 你 应 该 会 
得 到 相同 的 图 像 。 使 用 不 同 的 变换 进行 实验 ， 然 后 绘制 出 相应 的 结 来 。 

(2) 一 些 牛 津 多 视图 数据 集 已 经 给 定 了 照相 机 和 矩阵 。 对 一 个 这 样 的 数据 集 ， 计 算 其 照 
相机 位 置 ， 并 且 绘 制 出 照相 机 的 路 人 符 。 这 和 你 在 图 像 中 看 到 的 是 否 吻合 ? 

(3) 拍摄 一 些 带 有 平面 标记 物 和 物体 的 场景 图 像 。 将 图 像 的 特征 和 一 幅 全 景 图 像 的 特 
征 相 匹配 ， 计 算出 每 幅 图 像 照 相机 位 置 的 姿态 。 绘 制 出 照相 机 的 轨迹 ， 以 及 标记 
物 的 平面 。 如 末 你 喜欢 ， 也 可 以 在 图 像 中 加 入 特征 点 。 

(4) 在 增强 现实 的 例子 中 ,假设 物 体 放 午 在 原点 ， 并 且 只 将 照相 机 的 位 置 应 用 到 模拟 
视图 矩阵 中 。 将 物体 之 则 的 变换 加 入 到 和 矩阵 中 来 修改 该 例子 ， 使 得 在 不 同 的 位 置 
放置 一 些 物 体 。 例 如 ， 在 标记 位 置 处 放置 从 壶 网 格 。 

(5) UGE .obj 模型 文件 的 在 线 文 档 ， 学 习 如 何 使 用 纹理 模型 。 找 一 个 模型 (或 者 创 
GACH), Waa mel pox 
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本 章 讲 解 如 何 处 理 多 个 视图 ， 以 及 如 何 利 用 多 个 视图 的 几何 关系 来 恢复 照相 机 位 置 
童生 和 三 维 结构 。 通 过 在 不 同 视点 担 摄 的 图 像 ， 我 们 可 以 利用 特征 匹配 来 计算 出 三 
维 场景 点 以 及 照相 机 人 位置。 本草 会 介绍 一 些 基 本 的 方法 ， 展 示 一 个 三 维 重建 的 完整 
例子 ， 本 重 最 后 将 介绍 如 何 由 立体 图 像 进 行 致密 次 度 重 建 。 


5.1 外 极 几 何 


多 视图 几何 征 利用 在 不 同 视 点 所 拍摄 图 像 则 的 关系 ， 来 研究 照相 机 之 间或 者 特征 之 
间 关 系 的 一 门 科 学 。 图 像 的 特征 通 笛 是 兴 趣 点 ， 本 章 使 用 的 也 是 兴趣 点 特征 。 多 视 
图 几何 中 最 重要 的 内 容 古 双 视 图 几何 。 


如 果 有 一 个 场景 的 两 个 视图 以 及 视图 中 的 对 应 图 像 点 ， 那 么 根据 照相 机 间 的 空间 相 
对 位 置 和 关系、 照相 机 的 性 质 以 及 三 维 场景 点 的 位 置 ， 可 以 得 到 对 这 些 图 像 点 的 一 些 
几何 关系 约束 。 我 们 通过 外 极 几 何 来 描述 这 些 几 何 关 系 。 本 古人 简要 介绍 外 极 几 何 的 
基本 内 容 。 关 于 外 极 几 何 的 更 多 内 容 ， 参 陪 文 献 [13]。 
没有 关于 照相 机 的 先 验 知识 ， 会 出 现 固 有 二 义 性 ， 因 为 三 维 场景 点 X 经 过 4x4 的 
单 应 性 矩阵 五 变换 为 HX 后 ， 则 HX 在 照相 机 PA 里 得 到 的 图 像 点 和 X 在 照相 机 
已 里 得 到 的 图 像 点 相同 。 利 用 照相 机 方程 ， 可 以 将 上 述 问 题 描述 为 : 

Ax = PX = PH ' HX = PX 
因此 ， 当 我 们 分 析 双 视图 几何 关系 时 ， 总 是 可 以 将 照相 机 间 的 相对 位 置 关 系 用 单 应 
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性 矩阵 加 以 简化 。 这 里 的 单 应 性 算 阵 通 贡 只 做 刚体 变换 ， 即 只 通过 单 应 矩阵 变换 了 
坐标 系 。 一 个 比较 好 的 做 法 是 ， 将 原点 和 坐标 轴 与 第 一 个 照相 机 对 齐 ， 则 : 


P = K [I| 0] F0 P, = KlR|d 





为 了 方便 读者 阅读 ， 我 们 在 这 里 采取 第 4 ÆW, HP K, AK, EEEE, R 
征 第 二 个 照相 机 的 旋转 和 矩阵 ，# 征 第 二 个 照相 机 的 平移 同 量 。 利 用 这 些 照 相机 参数 矩 
阵 ， 我 们 可 以 找到 点 X AV Bee A x, Fx, 《分 别 对 应 于 投影 矩阵 Pl 和 P,) 的 关系 。 
这 样 ， 我们 可 以 从 寻找 对 应 的 图 像 出 发 ， 恢 复 照 相机 参数 矩阵 。 


同一 个 图 像 点 经 过 不 同 的 投影 矩阵 产生 的 不 同 投影 所 必须 请 足 : 





其 中 : 
F=K;'S.R K;' 
HERE S, Ay oe HP RGB BE : 
O -b6 hb 
Si=|| b 0-h (5.2) 
= a. 6 








公式 (5.1) AYMARA. FARE FAZER IMAM, 2k oh 4e HY DA h HR LAY BS Bie 
矩阵 (相对 旋转 R 和 平移 1t) 表示 。 由 于 det(T)=0， 所 以 基础 矩阵 的 秩 小 于 等 于 2. 
我 们 将 在 估计 忆 的 算法 中 用 到 这 些 性 质 。 


上 和 面 的 公式 表明 ， 我 们 可 以 借助 了 来 恢复 出 照相 机 参数 ， 而 下 可 以 从 对 应 的 投影 妖 

像 点 计算 出 来 。 在 不 知道 照相 机 内 参数 (K, 和 K,) 的 情况 下 ， 仅 能 恢复 照相 机 的 投 

sean 在 知道 照相 机 内 参数 的 情况 下 ， 重 建站 基于 度量 的 。 所 谓 度量 重建 ， 
能 够 在 三 维 重建 中 正确 地 表示 距离 和 角度 。 


利用 上 面 的 理论 处 理 一 些 图 像 数 据 前 ， 我 们 还 需要 了 解 一 些 几 何 学 知识 。 给 定 图 像 
中 的 一 个 点 ， 例 如 第 二 个 视图 中 的 图 像 点 于 ， 利 用 公式 (5.1)， 我 们 找到 对 应 第 一 
幅 图 像 的 一 条 直线 : 





x Fx=ľx=0 


其 中 x = 0 是 第 一 幅 图 像 中 的 一 条 直线 。 这 条 线 称 为 对 应 于 上 把 x 的 外 极 线 ， 也 就 


TE 1: 重建 的 绝对 尺度 不 能 恢复 ， 但 在 实际 中 ， 这 并 不 是 个 问题 。 
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古 说 ， 扩 x 在 第 一 幅 图 像 中 的 对 应 点 一 定 在 这 条 线 上 上。 所以， 基础 矩阵 可 以 将 对 应 
点 的 搜索 限制 在 外 极 线 上 。 


外 极 线 都 经 过 一 点 e， 称 为 外 极点 。 实 际 上 ， 外 极点 是 另 一 个 照相 机 交心 对 应 的 图 像 
尽 。 外 极点 可 以 在 我 们 看 到 的 图 像 外 ， 这 取决 于 照相 机 间 的 相对 方 同 。 因 为 外 极点 
在 所 有 的 外 极 线 上 ， 所 以 Fei=0。 因 此 ， 我 们 可 以 通过 计算 环 的 零 癌 量 来 计算 出 外 极 
尽 。 同 理 ， 鸭 一 个 外 极 后 可 以 通过 计算 ezF= 0 得到。 外 极点 和 外 极 线 如 图 5-1 所 示 。 


4 和 


5-1: 外 极 几何 示意 图 。 在 这 两 个 视图 中 ,分别 将 三 维 点 X 投影 为 xX; 和 xz。 两 个 照相 机 中 
心 之 间 的 基线 C1 和 C 与 图 像 平 面相 交 于 外 极点 ef 和 e。。 线 h 和 l 称 为 外 极 线 


5.1.1 一 个 简单 的 数据 集 

在 接 下 来 的 几 方 中， 我们 需要 一 个 带 有 图 像 点 、 三 维 点 和 照相 机 参数 第 阵 的 数据 集 。 
我 们 这 里 使 用 一 个 牛津 多 视图 数据 集 ， 从 http://www.robots.ox.ac.uk/~vgg/data/data- 
mview.html 可 以 下 载 Mertonl 数据 的 压缩 文件 。 下 面 的 脚本 可 以 加 载 Mertonl 的 数据 : 








import camera 


# 载 入 一 些 图 像 
im1 = array(Image.open('images/001.jpg')) 
im2 = array(Image.open('images/002.jpg' )) 


E 载 入 每 个 视图 的 二 维 点 到 列表 中 
points2D = [loadtxt('2D/o0'+str(i+1)+'.corners').T for i in range(3)] 


# 载 人 三 维 点 
points3D = loadtxt('3D/p3d').T 


# 载 入 对 应 


corr = genfromtxt('2D/nview-corners' ,dtype='int' ,missing='*' ) 


# 载 入 照相 机 和 矩阵 到 Camera 对 象 列 表 中 
P = [camera.Camera(loadtxt('2D/00'+str(i+1)+'.P')) for i in range(3) | 
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上 面 的 程序 会 加 载 前 两 个 图 像 ( 共 三 个 )、 三 个 视图 中 的 所 有 图 像 特征 点 、 对 应 不 
同 视图 图 像 点 重建 后 的 三 维 点 以 及 照相 机 参数 矩阵 (使 用 上 一 章 的 Camera 类 )。 这 
里 我 们 使 用 loadtxt() 函数 读 取 文本 文件 到 NumPy 数组 中 。 因 为 并 不 是 所 有 的 点 都 可 
见 ， 或 都 能 够 成 功 匹 配 到 所 有 的 视图 ， 所 以 对 应 数据 里 包含 了 缺失 的 数据 。 加 载 对 
应 数据 时 需要 考虑 这 一 点 。genfromtxt() 图 数 通过 将 缺失 的 数值 〈 在 文件 中 用 * 表 
示 ) 填充 为 -1 来 解决 这 个 问题 。 


将 上 面 的 代码 保存 到 一 个 文件 ， 例 如 load_vggdata.py， 然 后 使 用 命令 execfile() 可 
以 很 方便 地 运行 上 面 的 脚本， 从 而 获取 所 有 的 数据 : 


execfile('load vggdata.py' ) 
下 面 来 可 视 化 这 些 数据 。 将 三 维 的 点 投影 到 一 个 视图 ， 然 后 和 观测 到 的 图 像 点 比较 : 


# 将 三 维 点 转换 成 齐 次 坐标 表示 ， 并 投影 
X = vstack( (points3D,ones(points3D.shape[1])) ) 
x = P[O].project(X) 


# 在 视图 1 中 绘制 点 

figure() 

imshow(im1 ) 
plot(points2D[0][0],points2D[0][1],'*') 
axis off) 


figure() 

imshow(im1) 
plore] AIE] re) 
axis(’oft") 


show( ) 





上 面 的 代码 绘制 出 第 一 个 视图 以 及 该 视图 中 的 图 像 上 后 。 为 比较 方便 ， fea AZ 
制 在 男 一 张 图 上 ， 如 图 5-2 所 示 。 如 来 仔 细 观 察 ， 你 会 发 现 第 二 幅 图 比 第 一 幅 图 多 
一 些 点 。 这 些 多 出 的 点 是 从 视图 2 和 视图 3 重建 出 来 的 ， 而 不 在 视图 1 中 。 





注 1: 事实 上 ， 这些 特征 点 是 2.1 节 中 的 Harris 角 点 。 
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5-2; 牛津 multi-view 数据 集中 的 Merton1 MES: 视图 1 与 图 像 点 (AZ); 视图 1 与 投 
影 的 三 维 点 ( 右 ) 


5.1.2 用 Matplotlib 绘 制 三 维 数据 

为 了 可 视 化 三 维 重建 结果 ， 我 们 需要 绘制 出 三 维 图 像 。Matplotlib 中 的 mplot3d 工具 
包 可 以 方便 地 绘制 出 三 维 点 、 线 、 等 轮廓 线 、 表 面 以 及 其 他 基本 图 形 组 件 ， 还 可 以 
通过 图 像 窗 口 控件 实现 三 维 旋转 和 缩放 。 

可 以 通过 在 axes 对 象 中 加 上 projection="3d" 关键 字 实 现 三 维 绘图 ， 如 下 : 


from mpl toolkits.mplot3d import axes3d 


fig = figure() 
ax = fig.gca(projection="3d") 


# 生成 三 维 样本 点 
X,Y,Z = axes3d.get_test_data(0.25) 


# 在 三 维 中 绘制 点 
ax.plot(X.flatten(),Y.flatten(),Z.flatten(),‘'o') 


show() 


get test data() IBLE x, y 空间 按照 设 定 的 空间 间隔 参数 来 产生 均匀 的 采样 点 。 压 
平 这 些 网 格 ， 会 产生 三 列 数据 点 ， 然 后 我 们 可 以 将 其 输入 plot() 函数 。 这 样 ， 我 们 
束 可 以 在 立体 表面 上 画 出 三 维 操 。 

现在 通过 画 出 Merton EAS Beth EWES = AE AOC : 


# 绘制 三 维 点 
from mpl toolkits.mplot3d import axes3d 
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fig = figure() 
ax = fig.gca(projection='3d' ) 
ax.plot(points3D[0],points3D[1],points3D[2],'k.') 


5-3 征 三 个 不 同 视图 中 的 三 维 图 像 点 。 图 像 窗 口 和 控制 界面 外 观 效 朱 像 加 上 三 维 
旋转 工具 的 标准 画图 窗口 。 
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5-3: 使 用 Matplottib 工具 包 绘制 的 , 牛津 multi-view 数据 库 中 Mertoln1 数据 集 的 三 维 点 : 
从 上 面 和 侧 边 观测 的 视图 (E): 集 视 的 视图 ， 展 示 了 建筑 墙 体 和 屋顶 上 的 点 (中 ); 侧 视图 ， 
展示 了 一 面 墙 的 轮廓， 以 及 另 一 面 墙 上 点 的 主 视图 (5) 


5.1.3 WF: 八 点 法 
和信 点 法 是 通过 对 应 点 来 计算 基础 算 阵 的 算法 。 下 面 给 出 概述 ， 更 多 内 容 参 阅 文献 
[13] 和 文献 [14]。 


外 极 约 束 (5.1) 可 以 写成 线性 系统 的 形式 : 


1 1 1 1 1 1 1 1 Fi 
XXi X2Vi X2Wı i Wo WI 
x2 42 xy? x2 we ww? Fy 
2X1 2 Yi 2W1 ££ 2 Wi 
š š š š š F, = Af=0 
Nin? ney? A = wiwe| |, 
Fs; 


Kt, fia FAIR, X= [xi yi, wi] Pix = [x yw 是 一 对 图 像 点， 共有 n 对 对 
应 点 。 基 础 矩阵 中 有 9 个 元 素 ， 由 于 尺度 是 任意 的 ， 所 以 只 需要 8 个 方程 。 因 为 算 
法 中 需要 8 个 对 应 点 来 计算 基础 扎 阵 严 ， 所 以 该 算法 叫做 八 点 法 。 


新 建 一 个 文件 stm.py， 写 入 下 面 八 扣 法 中 最 小 化 | Af AY ea : 


def compute fundamental(x1,x2): 
""" 使 用 归 一 化 的 八 点 算法 ， 从 对 应 点 (x, x2 3 Xn 的 数组 ) 中 计算 基础 矩阵 
每 行 由 如 下 构成 : 
[x *x, x žy" XT, YORK, YY y', X, y, 1]""" 


n = x1.shape[1] 
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if X2vshape| T] Y= on: 
raise ValueError("Number of points don't match.") 


# 创建 方程 对 应 的 矩阵 
A = zeros((n,9)) 
for i in range(n): 
Alt lise PRICA eO Sea Og ol ss. LLO a, 
> ole OE a |e ga ls RE Bex al 
yi [res el es amc (el ass ec Be a | 





# 计算 线性 最 小 二 乘 解 
U,S,V = linalg.svd(A) 
F = V[-1].reshape(3, 3) 


# SIR F 

# 通过 将 最 后 一 个 奇异 值 置 0， 使 秩 为 2 
U,S,V = linalg.svd(F) 

Si2] 4.0 

F = dot(U,dot(diag(S),V)) 





return F 





我 们 通常 用 SVD 算法 来 计算 最 小 二 乘 解 。 由 于 上 面 算 法 得 出 的 解 可 能 秩 不 为 2〈 基 
础 矩阵 的 秩 小 于 等 于 2) ， 所 以 我 们 通过 将 最 后 一 个 各 异 值 置 0 来 得 到 秩 最 接近 2 的 
基础 第 阵 。 这 是 个 很 有 用 的 技巧 。 上 和 面 的 函数 忽略 了 一 个 重要 的 步 又 ， 对 图 像 坐标 
进行 归 一 化 ， 这 可 能 会 市 来 数值 问题 。 我 们 会 在 后 面 加 以 解决 。 


5.1.4 外 极点 和 外 极 线 
本 市 开始 提 到 过 ， 外 极点 满足 Fe,=0， 因 此 可 以 通过 计算 五 的 零 空 间 来 得 到 。 把 下 
面 的 函数 添加 到 sfm.py 中 : 


def compute epipole(F): 
"MR RERE F PIRA CATE FT ete Acs)" 


# 返回 F 的 零 空间 (Fx=0) 
U,S,V = linalg.svd(F) 
e = V[-1] 

return e/e[2| 








如 末 想 获得 另 一 幅 图 像 的 外 极点 OD De Ze Se ERIA), AER F PR Bai A 
上 述 函 数 即 可 。 











我 们 可 以 在 之 前 样本 数据 集 的 前 两 个 视图 上 运行 这 两 个 函数 : 
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import sfm 


# 在 前 两 个 视图 中 点 的 索引 
ndx = (corr[:,0]>=0) & (corr[:,1]>=0) 


# 获得 坐标 ， 并 将 其 用 齐 次 坐标 表示 
x1 = points2D[0][:,corr[ndx,0] | 
x1 = vstack( (x1,ones(x1.shape[1])) ) 
x2 = points2D[1][:,corr[ndx,1] | 
x2 = vstack( (x2,ones(x2.shape[1])) ) 


# 计算 F 
F = sfm.compute fundamental(x1,x2) 


# 计算 极点 
e = sfm.compute epipole(F) 


# 绘制 图 像 
figure() 
imshow(im1 ) 


# 分 别 绘 制 每 条 线 ， 这 样 会 绘制 出 很 漂亮 的 颜色 
for i in range(5): 

stm. plot epipolar line(iml,F,x2| eile False) 
axis('off') 


figure() 
imshow(im2 ) 
# 分 别 绘制 每 个 点 ， 这 样 会 绘制 出 和 线 同 样 的 颜色 
for i in range(5): 
plotix2 0,4] x2 El 
axis('off') 


show( ) 
首先 ， 选 择 两 幅 图 像 的 对 应 点 ， 然 后 将 它们 转换 为 齐 次 坐标 。 这 里 的 对 应 点 是 从 一 个 
文本 文件 中 读 取 得 到 的 ; 而 实际 上 ， 我 们 可 以 按照 第 2 章 的 方法 提取 图 像 特征 ， 然 后 
通过 匹配 来 找到 它们 。 由 于 缺失 的 数据 在 对 应 列表 corr 中 为 -1， 所 以 程序 中 有 可 能 
选取 这 些 点 。 因 此 ， 上 面 的 程序 通过 数组 操作 符 & 只 选取 了 索引 大 于 等 于 0 的 后。 


最 后 ， 我 们 在 第 一 个 视图 中 画 出 了 前 3 个 外 极 线 ， 在 第 二 个 视图 中 画 出 了 对 应 匹配 
Mo BRIE eat) plot() KA: 














def plot epipolar line(im,F,x,epipole=None,show epipole=True): 


""" 在 图 像 中 ,绘制 外 极点 和 外 极 线 Fx x=0。F Reza IRE, x Ao A A 
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m,n = im.shape[:2 | 
line = dot(F,x) 


# 外 极 线 参 数 和 值 
t = linspace(0,n, 100) 
lt = array([(line[2]+line[o]*tt)/(-line[1]) for tt in t]) 


# 仅仅 处 理 位 于 图 像 内 部 的 点 和 线 
ndx = (lt>=0) & (lt<m) 
plot(t[ndx],1t[ndx], linewidth=2) 


if show epipole: 
if epipole is None: 
epipole = compute epipole(F) 
plot(epipole[0]/epipole[2],epipole[1]/epipole[2], 'r*') 


上 面 的 函数 将 x FHA TELE EA RAS, AE A RE h I Ba Dd SS ET 
如 采 show_epipole 为 真 ， 外 极点 也 会 被 画 出 来 (如果 输 入 参数 中 没有 外 极点 ， 外 极 
点 会 在 程序 中 计算 获得 )。 程 序 结果 如 图 5-4 所 示 。 在 两 幅 图 中 ， 用 不 同 的 颜色 将 点 
和 相应 的 外 极 线 对 应 起 来 。 











5-4; 视图 1 中 的 外 极 线 示 为 Merton1 数据 视图 2 中 5 个 点 对 应 的 外 极 线 。 下 面 一 行为 这 
些 点 附近 的 特写 。 可 以 看 到 ， 这 些 线 在 图 像 外 左 侧 位 置 将 相交 于 一 点 。 这 些 线 表 明 点 之 间 的 
对 应 可 以 在 另外 一 幅 图 像 中 找到 ( 线 和 点 之 间 的 颜色 编码 匹配 ) 
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5.2 照相 机 和 三 维 结构 的 计算 
上 一 节 讲 述 了 视图 和 基础 和 矩阵、 外 极 线 计算 方法 的 关系 。 这 一 节 我 们 将 简单 地 介绍 
计算 照相 机 参数 和 三 维 结 构 的 工具 。 


5.2.1 ZAXI 


给 定 照 相机 参数 模型 ， 图 像 点 可 以 通过 三 角 齐 分 来 恢复 出 这 些 点 的 三 维 位 置 。 基 本 
的 算法 思想 如 下 。 


对 于 两 个 照相 机 Pl FP, 的 视图 ， 三 维 实物 点 XX 的 投影 点 为 和 x，( 这 里 用 齐 次 坐 
标 表示 )， 照 相机 方程 (4.1) 定义 了 下 列 关 系 : 





X 
P -x, 0 pa 
PO -x 








由 于 图 像 噪声 、 照 相机 参数 误差 和 其 他 系统 误差 ， 上 面 的 方程 可 能 设 有 精确 解 。 我 
们 可 以 通过 SVD 算法 来 得 到 三 维 点 的 最 小 二 乘 估 值 。 





下 面 的 国 数 用 于 计算 一 个 点 对 的 最 小 三 乘 三 角 剖 分 ， 把 它 添 加 到 sfm.py 中 : 


def triangulate point(x1,x2,P1,P2): 
e ARDOR, td ARS fay """ 


M = zeros((6,6)) 


M[ 23,74] = Pi 
MI3:s c4 | = P2 
M[:3,4] = -x1 
M[3:,5] = -x2 


U,S,V = linalg.svd(M) 
X = V[-1,:4] 


return X / X[3] 


oa —/ RFE) Se BT 4 个 值 就 是 齐 次 坐标 系 下 的 对 应 三 维 坐标 。 我 们 可 以 增加 下 
面 的 函数 来 实现 多 个 点 的 三 角 剖 分 : 





def triangulate(x1,x2,P1,P2): 
T X1 Ful x2 (3 x n 的 齐 次 坐标 表示 ) 中 点 的 二 视图 三 角 剂 分 mn 


n = x1.shape[1] 
ift X2¢Shapel | | t= N; 
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raise ValueError("Number of points don't match.") 


X = [ triangulate point(x1[:,i],x2[:,i],P1,P2) for i in range(n) | 


return array(X).T 


个 函数 的 输入 是 两 个 图 像 点 数组 ， 输 出 为 一 个 三 维 坐 标 数 组 。 
我 们 可 以 利用 下 面 的 代码 来 实现 Merton] 数据 集 上 的 三 角 齐 分 





import sfm 
# 前 两 个 视图 中 点 的 索引 
ndx = (Corri OO 人 Go 二 | 站 DO 


# 获取 坐标 ， 并 用 齐 次 坐标 表示 
x1 = points2D[0][:,corr|[ndx,0] 


| 
x1 = vstack( (x1,ones(x1.shape[1]))_) 
x2 = points2D[1]|:2,corr[ ndx;4 |] 
x2 = vstack( (x2,ones(x2.shape[1])) ) 


Xtrue = points3D[:,ndx] 
Xtrue = vstack( (Xtrue,ones(Xtrue.shape[1])) ) 


# 检查 前 三 个 点 

Xest = sfm.triangulate(x1,x2,P[0].P,P[1].P) 
print Xestia] 

print ATE e523) 


绘制 图 像 
from mpl toolkits.mplot3d import axes3d 
fig = figure() 
= fig.gca(projection='3d') 
ax.plot(Xest[0],Xest[1],Xest[2], 'ko') 
ax.plot(Xtrue[0],Xtrue[1],Xtrue[2],'r.') 
axis('equal' ) 


show() 


上 面 的 代码 首先 利用 前 两 个 视图 的 信息 来 对 图 像 点 进行 三 角 训 分， 然后 把 前 三 个 图 


像 点 的 齐 次 坐标 输出 到 控制 台 ， 节 后 绘制 出 恢复 的 


台 的 信息 如 下 : 

[[ 1.03743725 1.56125273 1.40720017 | 
[-0.57574987 -0.55504127 -0.46523952 | 
[ 3.44173797 3.44249282 7.53176488] 
| 1 13 1: ] 
[ 1.0378863 1.5606923 1.4071907 | 


l 
[ 


三 | 


AX 


接近 


三 维 图 像 点 。 输 出 到 控制 
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| -0.54627892 -0.5211711 -0.46371818 | 
[ 3.4601538  3.4636809 7.5323397 | 
E? k i, ]] 


算法 估计 出 的 三 维 图 像 点 和 实际 图 像 点 很 接近 。 如 图 5-5 所 示 ， 佑 计 点 和 实际 点 可 
以 很 好 地 匹配 。 








og o + a 
6 y 9 z ° Pi 
by e oe o o9 四 
=" s$ se 
“ a o 5 © 
ae 多 “sn oP e d 
og’ - 。% è S 


© 
oe ° o 
OD BER, do ok ter 
Bo ya tb Ys a 
cfo go cag PF Bo 。 














图 5-5: 使 用 照相 机 和 矩 阵 和 点 的 对 应 关系 来 三 角 训 分 这 些 数据 点 。 黑 色 的 圆圈 表示 估计 的 点 ， 
灰色 的 点 表示 真实 点 。 上 方 一 侧 的 视图 ( 左 )。 一 个 坐标 平面 观看 这 些 数 据点 的 近景 图 像 ( 右 ) 


5.2.2 ”由 三 维 点 计算 照相 机 和 矩阵 

如 果 已 经 知道 了 一 些 三 维 点 及 其 图 像 投影 ， 我 们 可 以 使 用 直接 线性 变换 的 方法 来 计 
算 照 相机 矩阵 P。 本 质 上 ， 这 是 三 角 剖 分 方法 的 逆 问 题 ， 有 时 我 们 将 其 称 为 照相 机 
反切 法 。 利 用 该 方法 恢复 照相 机 和 矩阵 同样 也 是 一 个 最 小 二 乘 问题 。 


我 们 从 照相 机 方程 (4.1) 可 以 得 出 ， 每 个 三 维 点 X, 〈 齐 次 坐标 系 下 ) 按照 x, =PX, 
BERRA xix, yp,1]， 相 应 的 扩 满 足下 面 的 关系 : 


Xi 0 0 -x 0 0.. P 
OX Or 0) oade 
0.0 XFL © Gee, 
X50 0 0 | 
0 X 0 0 -有 0…||” 


0 0 X 0 -10… 


其 中 pi, p: 和 p; 征 和 矩阵 己 的 三 行 。 上 面 的 式 子 可 以 写 得 更 紧凑 ， 如 下 所 示 : 


Mv=0 





然后 ， 我 们 可 以 使 用 SVD 分 解 估 计 出 照相 机 第 阵 。 利 用 上 面 讲述 的 矩阵 操作 ， 我 们 
可 以 直接 写 出 相应 的 代码 ， 将 下 面 的 函数 添加 到 sfm.py 文件 中 : 





def compute P(x,X): 





"由 二 维 - 三 维 对 应 对 ( 齐 次 坐标 表示 ) 计算 照相 机 和 矩阵 ” 


n = x.shape[1] 
if X.shape[1] != n: 


raise ValueError("Number of points don't match.") 


# 创建 用 于 计算 DLT 解 的 矩阵 
M = zeros((3*n,12+n)) 

for i in range(n): 

Misti Oe ay E Ai] 
M[3*i+1,4:8] = X[:,i] 
M[3*i+2,8:12] = X[:,i] 
M[3*i:3*1+3,i1+12] = -x[:,i] 


U,S,V = linalg.svd(M) 


return V[-1,:12].reshape((3,4) ) 


sit uae ed, a e 


个 特征 问 


量 的 前 12 个 元 素 钙 照相 机 矩阵 的 元 素 ， 经 过 重新 排列 成 矩阵 形状 后 返 


下 面 ， 在 我 们 的 样本 数据 集 上 测试 算法 的 性 
一 些 可 见 点 (使 用 对 应 列表 中 缺失 的 数值 )， 
照相 机 和 矩阵 : 


import sfm, camera 


corr = corr[:,0] # 视图 1 
ndx3D = where(corr>=0)[0] # 丢失 的 数值 为 -1 
ndx2D = corr[ndx3D] 


# 选取 可 见 点 ， 并 用 齐 次 坐标 表示 

x = points2D[0][:,ndx2D] # 视图 1 
x = vstack( (x,ones(x.shape[1])) ) 
X = points3D[:,ndx3D] 

X = vstack( (X,ones(X.shape[1])) ) 


# 估计 P 


Pest = camera.Camera(sfm.compute P(x,X)) 


# 比较 ! 
print Pest.P / Pest.P[2,3] 


能 。 下 面 的 代码 会 选 出 第 一 个 视图 中 的 
将 它们 转换 为 齐 次 坐标 表示 ， 然 后 估计 
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print P[o].P / P[o].P[2,3] 
xest = Pest.project(Xx) 


# 绘制 图 像 

figure() 

imshow(im1) 
plot(x[0],x[1],'bo') 
plot(xest[0],xest[1],'r.') 
axis('off') 


show() 


JI TAA FB FALE AE RE, REMI LA YA (bala toc) 打印 
到 控制 台 。 输 出 如 下 所 示 : 


.06520794e+00 -5.23431275e+01 2.06902749e+01 5.08729305e+02 
.05773115e+01 -1.33243276e+01 -1.47388537e+01 4.79178838e+02 
:05121915e-03 -3.19264684e-02 -3.43703738e-02 1.00000000e+00 
.06774679e+00 -5.23448212e+01 2.06926980e+01 5.08764487e+02 
.05834364e+01 -1.33201976e+01 -1.47406641e+01 4.79228998e+02 
.06792659e-03 .19008054e-02 -3.43665129e-02 1.00000000e+00 


| 


bo bed Fed LI LI LI 


| 


1 
UV 


上 面 是 估计 出 的 照相 机 矩阵， 下 面 古 数据 集 的 创建 者 计算 出 的 照相 机 和 矩阵 。 可 以 看 
到 ， 它 们 的 元 素 儿 乎 完全 相同 。 最 后 ， 使 用 估计 出 的 照相 机 和 矩阵 投影 这 些 三 维 点 ， 
然后 绘制 出 投影 后 的 结果 。 结 琳 如 图 5-6 所 示 ， 真 实 点 用 圆圈 表示 ， 估 计 出 的 照相 
机 投影 所 用 点 表示 。 

















5-6: 使 用 估计 出 的 照相 机 和 矩阵 来 计算 视图 1 中 的 投影 点 


5.2.3 由 基础 矩阵 计算 照相 机 和 矩阵 
在 两 个 视图 的 场景 中 ， 照 相机 算 阵 可 以 由 基础 矩阵 恢复 出 来 。 假 设 第 一 个 照相 机 甜 





Taxa 
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了 血 归 一 化 为 P=[70]， 现 在 我 们 需要 计算 出 第 二 个 照相 机 和 窍 阵 P,。 研 究 分 为 两 类 ， 
未 标定 的 情况 和 已 标定 的 情况 。 


1. 未 标定 的 情况 一 一 投影 重建 

在 没有 任何 照相 机 内 参数 知识 的 情况 下 ， 照 相机 移 阵 只 能 通过 射影 变换 恢复 出 来 。 
也 就 是 说 ， 如 末 利 用 照相 机 的 信息 来 重建 三 维 点 ， 那 么 该 重建 只 能 由 射影 变换 计算 
出 来 (你 可 以 得 到 整个 投影 场景 中 无 畸变 的 重建 点 )。 在 这 里 ， 我 们 不 考虑 角度 和 距 
[AI o 





因此 ， 在 无 标定 的 情况 下 ， 第 二 个 照相 机 和 矩阵 可 以 使 用 一 个 (3x3) 的 射影 变换 得 
出 o 一 个 简单 的 方法 是 : 


P,=(S.Fle] 


Ep, e 是 左 极点 ， 满 足 eF=0，S。 是 如 公式 (5.2) 所 示 的 反对 称 和 矩阵 。 请 注意 ， 
使 用 该 矩阵 做 出 的 三 角形 前 分 很 有 可 能 会 发 生 畸 变 ， 如 倾斜 的 重建 。 


Pe AAS AY CAS ; 





def compute P from fundamental(F): 
e" MEREMERE CA RAEE (假设 Pa = [TI 0]) "” 


e = compute epipole(F.T) # 左 极点 


Te = skew(e) 
return vstack((dot(Te,F.T).T,e)).T 


这 里 ， 我 们 使 用 的 skew) 函数 定义 如 下 : 


def skew(a): 
"e 反对 称 矩 阵 A， 使 得 对 于 每 个 v 有 axv=Av """ 


return array([{[0,-a[2],a[1]],[a[2],0,-a[0]],[-a[1],a[o],0]]) 
将 上 面 的 两 个 函数 添加 到 sfm.py 文件 中 。 


2. 已 标定 的 情况 一 一 度量 重建 

在 已 经 标定 的 情况 下 ， 重 建 会 保持 欧式 空间 中 的 一 些 度量 特性 (除了 全 局 的 尺度 参 
数 )。 在 重建 三 维 场景 中 ， 已 标定 的 例子 更 为 有 趣 。 

EPRE IERE K, RITAR ECA K 作用 于 图 像 点 xx=K x， 因 此 ， 在 新 的 图 像 
坐标 系 下 ， 照 相机 方程 变 为 : 


x,= K ‘K[R|t]X = [R|t]X 
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在 新 的 图 像 坐 标 系 下 ， 扣 同 样 满足 之 前 的 基础 矩阵 方程 : 





xx, Fxg =0 








FEAR VA— {OH Air ARP, WEBERA BBE, W BW Ap ea tL, LA 
RUT MA RBs, MIA E, mde F. 


MÆ Jit FEB i EH ES FALE EE AR, TA a A) RA 
解 产 生 位 于 两 个 照相 机 前 的 场景 ， 所 以 我 们 可 以 轻松 地 从 中 选 出 来 。 





下 面 是 计算 这 4 个 解 的 算法 (参阅 文献 [13] 获取 更 多 细节 )。 将 该 函数 添加 到 sfm. 
py 文件 中 : 
def compute P from essential(E): 


"e" MAS JAE RE HB EELS — 7S LEE (假设 P1 = [I 0]) 
输出 为 4 个 可 能 的 照相 机 矩阵 列表 ""”" 


# PRUE E 的 秩 为 2 
USV = sVvd CE) 
if det(dot(U,V))<o: 
V= -V 
E = dot(U,dot(diag([1,1,0]),V)) 


# 创建 矩阵 (Hartley) 
Z = skew([0,0,-1]) 
W = array([[0,-1,0],[1,0,0],[0,0,1]]) 


# 返回 所 有 (4 个 ) 解 

P2 = [vstack((dot(U,dot(W,V)).T,U[:,2])).T, 
vstack((dot(U,dot(W,V)).T,-U[:,2])).T, 
vstack((dot(U,dot(W.T,V)).T,U[:,2])).T, 
vstack((dot(U,dot(W.T,V)).1T,-UL:,2])).T] 


return P2 


BIC, TARR AWA ER AS ERE BRA 2 (AS EE A A ES ay HL). PAA, 
按照 文献 [13] 中 的 方法 ， 计 算出 这 4 个 解 。 关 于 如 何 挑选 正确 的 解 ， 我 们 将 在 后 面 
的 例子 中 讲解 。 


本 万 涵盖 了 从 图 像 集 计算 出 三 维 重建 所 需 的 所 有 理论 。 


5.3 ”多 视图 重建 


下 面 让 我 们 来 看 ， 如 何 使 用 上 面 的 理论 从 多 幅 图 像 中 计算 出 真实 的 三 维 重 建 。 由 于 
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照相 机 的 运动 给 我 们 提供 了 三 维 结构 ， 所 以 这 样 计算 三 维 重 建 的 方法 通常 称 为 SfM 
(Structure from Motion， 从 运动 中 恢复 结构 )。 


假设 照相 机 已 经 标定 ， 计 算 重 建 可 以 分 为 下 面 4 个 步 桑 : 


(1) 检测 特征 点 ， 然 后 在 两 幅 图 像 间 匹配 ， 
(2) 由 匹配 计算 基础 矩阵 ; 
(3) 由 基础 第 阵 计 算 照 相机 算 阵 ， 


(4) = FAT 7 ik HE = FE 


RNCARS Sse hin 4 CRAB. (ESR RI eh 
TE APES DE BCID, RAE — Ak BED D AREER 


5.3.1 稳健 估计 基础 矩阵 

类 似 于 稳健 计算 单 应 性 矩阵 (3.3 ) ， 当 存在 噪声 和 不 正确 的 匹配 时 ， 我 们 需要 估 
计 基 础 矩阵 。 和 前 面 的 方法 一 样 ， 我 们 使 用 RANSAC 方法 ， 只 不 过 这 次 结合 了 八 
点 算法 。 注 章 ， 八 点 算法 在 平面 场景 中 会 失效 ， 所 以 ， 如 果 场 景点 都 位 于 平面 上 ， 
就 不 能 使 用 该 算法 。 


将 下 面 的 类 添加 到 sfm.py 文件 中 : 








class RansacModel(object): 
""" 用 从 http://www.scipy.org/Cookbook/RANSAC 下 载 的 ransac.py 计算 基础 矩阵 的 类 """ 


def init (self,debug=False): 
self.debug = debug 


def fit(self,data): 
""" 使 用 选择 的 8 个 对 应 计算 基础 逢 阵 """ 


# 转 置 ， 并 将 数据 分 成 两 个 点 集 
data = data.T 

ME = datal 33328. 

x2 = data[3:,:8] 


# 估计 基础 矩阵 ， 并 返回 
F = compute fundamental normalized(x1,x2) 
return F 


def get_error(self,data,F): 
""" 计算 所 有 对 应 的 x^T F x， 并 返回 每 个 变换 后 点 的 误差 """ 





# 转 置 ， 并 将 数据 分 成 两 个 点 集 





多 视图 几何 | 123 


data = data.T 
x1 = datal y 
x2 = datal.3: | 


# 将 Sampson 距离 用 作 误 差 度量 

Exh Sdotth, xt) 

Ex? = dott hs?) 

denom = Fx1[0]**2 + Fxi[1]**2 + Fx2[0]**2 + Fx2[1]**2 
err = ( diag(dot(x1.T,dot(F,x2))) )**2 / denom 


# 返回 每 个 点 的 误差 
return err 


和 之 前 一 样 ， 我 们 需要 fit() 和 get error() 方法。 这 里 采用 的 错误 衡量 方法 是 
Sampson 距离 (参阅 文献 [13]). fit) 方法 会 选择 8 个 点 ， 然 后 使 用 归 一 化 的 八 点 
算法 : 


def compute fundamental normalized(x1, x2): 


""" 使 用 归 一 化 的 八 点 算法 ， 由 对 应 点 (x1，x2 3 Xn 的 数组 ) 计算 基础 矩阵 "”" 


n = x1.shape[1] 
if x2«shape[ 1] =n: 
raise ValueError("Number of points don't match.") 


# 归 一 化 图 像 坐标 

Neh. e/a | 

mean 1 = mean(x1[:2],axis=1) 

Si ‘srt(2) A StI) 

T1 = array([[S1,0,-S1*mean 1[0]],[0,S1,-S1*mean 1[1]],[0,0,1]]) 
x4. s dot TIXI) 


PS X21 

mean 2 = mean(x2[:2],axis=1) 

S22 Sanu?) Std >|) 

T2 = array([[S2,0,-S2*mean 2[0]],[0,S2,-S2*mean 2[1]],[0,0,1]]) 
Y)- 2 AOE TAX) 


# 使 用 归 一 化 的 坐标 计算 F 


F = compute fundamental(x1,x2) 


# 反 归 一 化 
F = dot(T1.T,dot(F,T2)) 


return F/F[2,2] 


该 国 数 将 图 像 点 归 一 化 为 零 均 值 固 定 方差 。 
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接 下 来 ,我 们 在 函数 中 使 用 该 类 。 将 下 面 的 函数 添加 到 sfm.py 文件 中 


def F from ransac(x1,x2,model,maxiter=5000,match theshold=1e-6): 
nu" 使 用 RANSAN 方法 (ransac.py, RÁ http://www. scipy.org/Cookbook/RANSAC) ; 
从 点 对 应 中 稳健 地 估计 基础 矩阵 F 
输入 : 使 用 齐 次 坐标 表示 的 点 x1，x2 (3 Xn 的 数组 ) """ 


import ransac 
data = vstack((x1,x2)) 


# 计算 并 返回 正确 点 索引 

F,ransac data = ransac.ransac(data.T,model,8,maxiter,match theshold, 20, 
return_all=True) 

return F, ransac_data['inliers' | 


ZE, RINE EIER I ME F, DER, EE RT De be PA A F 
ke ME BA. 5AM EEEE, FRAT RUA RAR RR, Oe T 
PU ACH BE (之 前 使 用 像素 ， 现 在 使 用 Sampson 距离 来 衡量 )。 


5.3.2 ”三维 重建 示例 
在 本 市 中 ， 我 们 将 观 窦 一 个 重建 三 维 场 景 的 完整 例子 。 我 们 使 用 由 已 知 标定 算 阵 的 
照相 机 拍摄 的 两 幅 图 像 。 该 图 像 是 著名 的 恶魔 鸟 监狱 ， 如 图 5-7 Bra. | 








i 


BM. eh ý ’ 
al dts - | | $9), 
4 O Hl "| 
> | 
ù > sha Port 
” wee T a 4 “is hha) Tee 








图 5-7; 在 一 个 场景 中 使 用 不 同 视角 拍摄 图 像 对 


我 们 将 该 处 理 代码 分 成 厂 干 块 ， 使 得 代码 更 容易 理解 。 首 先 ， 提取 、 匹 配 特 征 ， 然 
后 估计 基础 阜 阵 和 品 相 机 和 矩阵 : 


import homography 
import sfm 
import sift 


TE 1: 图 像 由 Carl Olsson 提供 (参见 http://www.maths.|th.se/matematiklth/personal/calle/) 。 
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# 标定 矩阵 
K = array([[2394,0,932],[0,2398,628],[0,0,1]]) 


# 载 和 图像， 并 计算 特征 

im1 = array(Image.open('alcatraz1.jpg')) 
sift.process image('alcatraz1.jpg','im1.sift') 
l1,d1 = sift.read features from file('im1.sift') 


im2 = array(Image.open('alcatraz2.jpg')) 
sift.process image('alcatraz2.jpg','im2.sift') 
12,d2-=:sift.read features from Ti Le Im ite) 


# 匹配 特征 
matches = sift.match twosided(d1,d2) 
ndx = matches.nonzero() [o] 


# 使 用 齐 次 坐标 表示 ， 并 使 用 inv(K) 归 一 化 
x1 = homography.make_homog(11[ndx, :2].T) 
ndx2 = [int(matches[i]) for i in ndx] 

x2 = homography.make_homog(12[ndx2, :2].T) 


xin = dot(inv(K),x1) 
x2n = dot(inv(K), x2) 


# 使 用 RANSAC 方法 估计 
model = sfm.RansacModel() 
E,inliers = sfm.F from ransac(xin,x2n,mode1) 


# 计算 照相 机 和 矩阵 (P2 是 4 个 解 的 列表 ) 
P1 = array Cl[1,0;050 |, E00 O00) | O05 0) 
P2 = sfm.compute P from essential(E) 


现在 ， 我 们 已 经 获得 了 标定 第 阵 ， 所 以 只 对 第 阵 K 进行 硬 编码 。 与 之 前 的 例子 一 
样 ， 我 们 挑选 属于 匹配 关系 的 特定 点 。 然 后 使 用 KK 来 对 其 进行 归 一 化 ， 并 使 用 归 
一 化 的 八 点 算法 来 运行 RANSAC 估计 。 因 为 该 点 已 经 归 一 化 ， 所 以 这 里 会 运 回 一 
个 本 质 算 阵 。 因 为 我 们 将 会 使 用 到 的 正确 的 匹配 点 ， 所 以 需要 傈 存 正确 匹配 点 的 和 
引 。 从 本 质 和 矩阵 出 发 ， 我 们 可 以 计算 出 第 二 个 照相 机 算 阵 的 四 个 可 能 解 。 


从 照相 机 矩阵 的 列表 中 ， 挑 选 出 经 过 三 角 放 分 后 ， 在 两 个 照相 机 前 均 含 有 最 多 场景 
FAHY HEA ALAR RA : 
# 选取 点 在 照相 机 前 的 解 


ind = 0 
maxres = 0 








for i in range(4): 





| 人 大大 


126 第 5 章 








# 三 角 剂 分 正确 点 ， 并 计算 每 个 照相 机 的 次 度 

X = stm.triangulate(xin[:,inliers],x2n[:,inliers],P1,P2[i]) 
d1 = dot(P1,X)[2] 

d2 = dot(P2[i],X)[2] 

sum(d1>0)+sum(d2>0) > maxres: 


+H 


i 
maxres = sum(d1>0)+sum(d2>0) 
TAG =: 
infront = (d1>0) & (d2>0) 





+ 


三 角 齐 分 正确 点 ， 并 移 除 不 在 所 有 照相 机 前 面 的 点 
X = stm.triangulate(xin[:,inliers],x2n[:,inliers],P1,P2[ind]) 
X = X[:,infront] 


VA Ail ik 4 SiR, ORD Dy TIE AAA = EET = A. RS PATI a 
Ate lA Ba, REWE HET A BO = PA. RRE TEN 
最 大 深度 的 索引 ， 对 于 和 了 最 优 解 一 致 的 点 ， 用 相应 的 布尔 量 保存 了 信息 ， 这 样 可 以 
取出 真正 在 照相 机 前 面 的 点 。 因 为 所 有 估计 中 都 存在 噪声 和 误差 ， 所 以 即便 使 用 正 
确 的 照相 机 和 矩阵 ， 也 存在 一 些 点 仍 位 于 某 个 照相 机 后 和 面 的 风险 。 首 先 获 得 正确 的 解 ， 
然后 对 这 些 正确 的 皇 进 行 三 角 剖 分 ， 最 后 保留 位 于 照相 机 前 方 的 点 


现在 可 以 绘制 出 该 三 维 重建 :; 


# 绘制 三 维 图 像 
from mpl toolkits.mplot3d import axes3d 











fig = figure() 

ax = fig.gca(projection='3d' ) 
ax.plot(-X[0],X[1],X[2],'k.') 
axis('off') 


和 我 们 的 坐标 系 相 比 ， 使 用 mplot3d 绘制 三 维 图 像 需 要 将 第 一 个 坐标 值 取 相 反 数 ， 
所 以 这 里 改变 其 符号 


然后 ， 可 以 在 每 个 视图 中 绘制 出 二 次 投影 : 


# 绘制 Xx 的 投影 
import camera 


# 绘制 三 维 点 

Cam1 = camera.Camera(P1) 

cam2 = camera.Camera(P2[ind]) 
x1p = cam1.project(X) 

x2p = cam2.project(X) 


# 反 K 归 一 化 
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x1p = dot(K,x1p) 
x2p = dot(K,x2p) 


figure() 

imshow(im1) 

gray() 
plot(x1p[0],x1p[1],'0') 
plot(xilo xili]; re") 
axis('off') 


figure() 

imshow(im2) 

gray() 
plot(x2p[0],x2p[1],'0') 
plot x20] 5X21 415. TY) 
axis(' Ort ) 

show() 


将 这 些 三 维 点 投影 后 ， 可 以 通过 乘 以 标定 矩阵 的 方式 来 弥补 初始 归 一 化 对 点 的 影响 。 


结 末 输出 如 图 5-8 所 示 。 可 以 看 到 ， 二 次 投影 后 的 点 和 原始 特征 位 置 不 完全 匹配 ， 
但 是 相当 接近 。 当 然 ， 可 以 进一步 调整 照相 机 算 阵 来 所 高 重建 和 二 次 投影 的 性 能 ， 
但 是 这 超出 了 这 个 简单 例子 的 范畴 。 





ED -RS 
=e 
a ities 


i Kine 
ea per 











a a 对 图 像 中 计算 三 维 重建 : PARER (RE) 和 二 次 投影 重建 的 
三 维 点 (BE) 的 两 幅 图 像 (E); 三维 重建 (下) 





入 和 
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5.3.3 ”多 视图 的 扩展 示例 
多 视图 重建 有 一 些 步骤 和 进一步 的 扩展 ， 但 是 不 能 在 本 书 中 全 部 介绍 。 为 了 方便 读 
者 进一步 阅读 ， 下 面 提 供 关 于 一 些 有 关内 容 及 其 参考 文献 。 


1. 多 视图 

当 我 们 有 同一 场景 的 多 个 视图 时 ， 三 维 重建 会 变 得 更 准确 ， 包 括 更 多 的 细节 信息 。 
因为 基础 矩阵 只 和 一 对 视图 相关 ， 所 以 该 过 程 带 有 很 多 图 像 ， 和 之 前 的 处 理 有 些 
不 同 。 


对 于 视频 序列 ， 我 们 可 以 使 用 时 序 关 系 ， 在 连续 的 帧 对 中 匹配 特征 。 相 对 方位 需要 
从 每 个 帧 对 增 量 地 加 入 下 一 个 帧 对 ，( 与 图 3-12 中 我 们 在 全 景 图 例子 中 加 入 单 应 性 
和 矩阵 相同 )。 该 方法 非常 有 效 ， 同 时 可 以 使 用 跟踪 有 效 地 找到 对 应 点 (关于 跟踪 的 更 
多 知识 ， 参 阅 10.4 市 )。 一 个 问题 是 误差 会 在 加 入 的 视图 中 积 索 。 该 问题 可 以 由 最 
后 的 优化 步骤 来 解决 ， 参 见 下 文 。 


对 于 静止 的 图 像 ， 一 个 办 法 是 找到 一 个 中 央 参 考 视 图 ， 然 后 计算 与 之 有 关 的 所 有 其 
他 照相 机 和 矩 了 泗 。 田 一 个 办 法 古 计算 一 个 图 像 对 的 照相 机 逢 了 泗 和 三 维 重建 ， 然 后 增 量 
地 加 入 新 的 图 像 和 三 维 点 ， 参 见 参考 文献 [34]。 另 外 ， 还 有 一 些 方法 可 以 同时 由 三 
个 视图 计算 三 维 重 建 和 照相 机 位 置 (参阅 参考 文献 [13]) ; 但 除 此 之 外 ， 我 们 还 需 
要 使 用 增 量 的 方法 。 


2. 光束 法 平 差 

从 图 5-8 简单 三 维 重 建 的 例子 ， 我 们 可 以 清楚 地 看 出 ， 恢 复出 的 点 的 位 置 和 由 估计 
的 基础 矩阵 计算 出 的 照相 机 和 瑟 阵 都 存在 误差 。 在 多 个 视图 的 计算 中 ， 这 些 误差 会 进 
一 步 票 积 。 因 此 ， 多 视图 重建 的 最 后 一 步 ， 通 稍 是 通过 优化 三 维 点 的 位 置 和 照相 机 
参数 来 减少 二 次 投影 误差 。 该 过 程 称 为 光束 法 平 差 。 更 多 内 容 参 阅 参 孝文 献 [13] 和 [35], 
或 者 可 以 从 http://en.wikipedia.org/wiki/Bundle_adjustment 参阅 该 方法 的 概述 。 


3. 自 标 定 

在 未 标定 照相 机 的 情形 中 ， 有 了 时 可 以 从 图 像 特征 来 计算 标定 矩阵 。 该 过 程 称 为 自 标 
定 。 根 据 在 照相 机 标定 矩阵 参数 上 做 出 的 假设 ,以 及 可 用 的 图 像 数 据 的 类 型 (特征 
匹配 、 平 行 线 、 平 面 等 )， 我 们 有 很 多 不 同 的 自 标 定 算法 。 感 兴趣 的 读者 可 以 参阅 参 
芳 文 献 [13] 及 参考 文献 [26] 第 6 章 的 内 容 。 


作为 标定 的 附注 ， 值 得 一 提 的 是 一 个 叫做 extract_focal.pl 的 有 用 脚本 ， 它 是 SfM 系 
统 (http://phototour.cs.washington.edu/bundler/) 的 一 部 分 。 对 于 和 常见 的 照相 机 ， 该 
脚本 基于 图 像 EXIF 数据 ， 使 用 一 个 查找 表 来 估计 焦距 。 
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5.4 立体 图 像 

一 个 多 视图 成 像 的 特殊 例子 是 立体 视觉 (或 者 立体 成 像 ) ， 即 使 用 两 台 只 有 水 平 (m 
一 侧 ) 偏 移 的 照相 机 观测 同一 场景 。 当 照相 机 的 位 置 如 上 设置 ， 两 幅 图 像 具 有 相同 
的 图 像 平面 ， 图 像 的 行 是 垂直 对 齐 的 ， 那 么 称 图 像 对 是 经 过 矫正 的 。 该 设置 在 机 大 
人 学 中 很 常见 ， 币 被 称 为 立体 平台 。 

通过 将 图 像 扭 曲 到 公共 的 平面 上 上， 使 外 极 线 位 于 图 像 行 上 ， 任 何 立 体 照 相机 设置 都 
能 得 到 矫正 (我 们 通常 构建 立体 平台 来 产生 经 过 矫正 的 图 像 对 ) 。 这 超出 了 本 章节 的 
沁 围 ， 感 兴趣 的 读者 可 以 参阅 参考 文献 [13] 第 303 页 ， 或 者 参考 文献 [3] 第 430 页 。 


假设 两 幅 图 像 经 过 了 矫正 ， 那 么 对 应 扩 的 寻找 限制 在 图 像 的 同一 行 上 。 一 旦 找到 
对 应 点 ， 由 于 深度 是 和 偏 移 成 正比 的 ， 那 么 深度 (Z 坐标 ) 可 以 直接 由 水 平 偏 移 来 
计算 ， 




















ee ee 
其 中 ,ff 是 经 过 矫正 图 像 的 焦距 ，b 是 两 个 照相 机 中 心 之 间 的 距离 ，x 和 x 是 左右 两 


幅 图 像 中 对 应 点 的 xx 坐标 。 分 开 照 相机 中 心 的 距离 称 为 基线 。 矫 正 后 的 立体 照相 机 
设置 如 图 5-9 所 示 。 




















立体 重建 《有 时 称 为 致密 深度 重建 ) 就 是 恢复 深度 图 (或 者 相反 ， 视 差 图 ) ， 图 像 中 
每 个 像素 的 深度 (或 者 视差 ) 都 需要 计算 出 来 。 这 是 计算 机 视觉 中 的 经 典 同 题 ， 有 
很 多 算法 可 以 解决 该 问题 。 米 德尔 伯 里 学 院 立体 视觉 网 页 (http://vision.middlebury. 
edu/stereo/) 保持 更 新 最 佳 算法 的 评估 ， 以 及 该 算法 的 代码 和 许多 细 证 描述。 在 下 一 
中 ， 我 们 会 讲解 基于 归 一 化 互相 关 的 立体 重建 算法 。 








计算 视 志 图 

在 该 立体 重建 算法 中 ,我们 将 对 于 每 个 像素 尝试 不 同 的 偏 移 ， 并 按照 局 部 图 像 周 转 
归 一 化 的 互相 关 值 ， 选 择 具 有 最 好 分 数 的 偏 移 ， 然 后 记录 下 该 最 佳 偏 移 。 因 为 每 个 
偏 移 在 某 种 程度 上 对 应 于 一 个 平面 ， 所 以 该 过 程 有 时 称 为 扫 平 面 法 。 虽 然 该 方法 并 
不 是 立体 重建 中 最 好 的 方法 ， 但 是 非常 简单 ， 通 常会 得 出 令 人 满意 的 结 来 。 


当 密 集 地 应 用 在 图 像 中 时 ， 归 一 化 的 互相 关 值 可 以 很 快 地 计算 出 来 。 这 和 我 们 在 第 
2 章 中 应 用 于 稀疏 点 对 应 的 不 同 。 我 们 使 用 每 个 像素 周围 的 图 像 块 (根本 上 说 ， 是 
局 部 周边 图 像 ) 来 计算 归 一 化 的 互相 关 。 对 于 这 里 的 情形 ， 我 们 可 以 在 像素 周围 重 
新 写 出 公式 (2.3) 中 的 NCC， 如 下 所 示 




















>, h(x) -A) (a(x) -0) 





h, b) =—SSovoOF 
TD O 





我 们 在 前 面 跳 过 了 归 一 化 常数 (这 里 不 需要 )， 然 后 对 该 像素 周围 局 部 像素 块 中 的 像 
素 求 和 。 


现在 ， 我 们 要 将 图 像 中 的 每 个 像素 进行 该 操作 。 这 三 个 求 和 操作 是 在 局 部 图 像 块 区 
域 上 进行 的 ， 我 们 可 以 使 用 图 像 滤 波 絮 来 快速 计算 ， 这 与 我 们 在 模糊 和 求 导 操作 中 
使 用 的 技巧 一 样 。ndimage.filters 模块 中 的 uniform filter() 函数 可 以 在 一 个 矩形 
图 像 块 中 计算 相 加 。 


下 面 是 扫 平 面 法 的 具体 实现 代码 ， 该 国 数 返回 每 个 像素 的 最 佳 视差 。 创 建 stereo.py 
文件 ， 将 下 面 的 代码 添加 进去 : 


def plane sweep ncc(im 1,im r,start,steps,wid): 


""" 使 用 归 一 化 的 互相 关 计 算 视 差 图 像 """ 





m,n = im l.shape 


# 保存 不 同 求 和 值 的 数组 
mean 1 = zeros((m,n)) 
mean T = zeros((m,n)) 
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s = zeros((m,n)) 


# 





l = zeros((m,n)) 
r = zeros((m,n)) 
保存 深度 平面 的 数组 





dmaps = zeros((m,n,steps)) 


# 


计算 图 像 块 的 平均 值 


filters.uniform filter(im 1,wid,mean 1) 


filters.uniform filter(im r,wid,mean r) 


# 
no 
no 


# 
fo 


# 
re 


归 一 化 图 像 
rm l = im l - mean | 
rm ry = im Yr - mean r 


尝试 不 同 的 视差 

r displ in range(steps): 

# 将 左边 图 像 移 动 到 右边 ， 计 算 加 和 

filters.uniform filter(roll(norm 1,-displ-start)*norm r,wid,s) # 和 归 一 化 
filters.uniform filter(roll(norm 1,-displ-start)*roll(norm 1,-displ-start),wid,s 1) 
filters.uniform filter(norm r*norm r,wid,s r) # 和 反 归 一 化 


# 保存 ncc 的 分 数 
dmaps[:,:,displ] = s/sqrt(s_1*s_r) 


为 每 个 像素 选取 最 佳 深 度 


turn argmax(dmaps,axis=2) 


首先 ， 因 为 uniform filter() 国 数 的 输入 参数 为 数组 ， 我 们 需要 创建 用 于 保存 让 波 
结果 的 一 些 数 组 。 然 后， 我 们 创建 一 个 数组 来 保存 每 个 平面 ， 从 而 能 够 在 最 后 一 个 
纬度 上 使 用 argmax() 尔 数 找到 对 于 每 个 像素 的 最 佳 深 度 。 该 函数 从 start 偏 移出 发 ， 
在 所 有 的 steps tat? EVER. EH roll) 函数 平移 一 幅 图 像 ， 人 然后 使 用 滤波 计算 
NCC 的 三 个 求 和 操作 。 


下 面 古 载 和 图像， 并 使 用 该 函数 计算 偏 移 图 的 完整 例子 : 


impo 


im l 
im r 


# FF 
step 
Star 





rt stereo 


= array(Image.open('scene1.row3.col3.ppm').convert('L'),'f') 
= array(Image.open('scene1.row3.col4.ppm').convert('L'),'f') 


始 偏 移 ， 并 设置 步 长 
S = 12 
t=4 
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# ncc 的 宽度 
wid = 9 


res = stereo.plane sweep ncc(im 1,im r,start,steps,wid) 


import scipy.misc 
scipy.misc.imsave('depth.png',res) 


这 里 首先 从 经 典 “tsukuba” 数据 集中 载 入 一 对 图 像 ， 然 后 将 其 灰 度 化 。 接 下 来 ， 设 
萤 扫 平面 函数 所 需 的 参数 ， 包 括 尝 试 偏 移 的 数目 、 和 初始 值 和 NCC 路 径 的 宽度 。 你 
会 发 现 ， 该 方法 非常 快 ， 至少 快 于 使 用 NCC 进行 特征 匹配 。 这 也 是 使 用 滤波 器 来 
计算 的 原因 。 


该 方法 同样 适用 于 其 他 滤波 绮 。 均 匀 滤 波 副 给 定 正 方形 图 像 块 中 所 有 像素 相同 的 权 
值 。 但 是 ， 在 一 些 例 子 中 ， 其 他 滤波 如 对 NCC 的 计算 可 能 更 为 适用 。 下 面 古 使 用 
UE UK ae HRY De Rae, POH PAAR IT. VSN stereo.py X 
件 中 : 





def plane sweep gauss(im 1,im r,start,steps,wid): 


""" 使 用 带 有 高 斯 加 权 周 边 的 归 一 化 互相 关 计 算 视 差 图 像 """ 





m,n = im 1.shape 


# 保存 不 同 加 和 的 数组 
mean 1 = zeros((m,n)) 
mean r = zeros((m,n)) 
s = zeros((m,n)) 

s | = zeros((m,n)) 

Ss Y = zeros((m,n)) 





# 保存 深度 平面 的 数组 


dmaps = zeros((m,n,steps)) 





# 计算 平均 值 
filters.gaussian filter(im 1,wid,0,mean 1) 
filters.gaussian filter(im r,wid,0,mean 7) 


# 归 一 化 图 像 
norm l = im l - mean 1 
norm r = im r - mean r 


# SSAA TRAY ALE 
for displ in range(steps): 
# 将 左边 图 像 移动 到 右边 ， 计 算 加 和 
filters.gaussian filter(roll(norm_1,-displ-start)*norm r,wid,0,s) # 和 归 一 化 
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filters.gaussian filter(roll(norm 1,-displ-start)*roll(norm 1,-displ-start) ,wid, 
‘ml 
filters.gaussian filter(norm r*norm r,wid,0,s r) # 和 反 归 一 化 


# 保存 ncc 的 分 数 
dmaps[:,:,displ] = s/sqrt(s_1*s_r) 


# 为 每 个 像素 选取 最 佳 深 度 


return argmax(dmaps,axis=2) 


除了 在 滤波 中 使 用 了 额外 的 参数 ， 该 代码 和 均匀 滤波 的 代码 相同 。 我 们 需要 在 
gaussian filter() 国 数 中 传人 雪 参 数 来 表示 我 们 使 用 的 是 标准 高 斯 国 数 ， 而 不 是 其 
他 任何 导数 GEIL 1.4.2 市 )。 


你 可 以 像 前 面 的 扫 平 面 函数 一 样 来 使 用 该 函数 。 图 5-10 和 图 5-11 所 示 为 这 两 个 
扫 平 面 实现 操作 在 一 些 标 准 立 体 基 准 图 像 上 的 结果 。 这 些 图 像 来 自 于 参考 文献 
[29] 和 [30]， 可 以 从 http://vision.middlebury.edu/stereo/data/ 下 载 。 这 里 我 们 使 用 
“tsukuba” FH “cones” 图像， 在 标准 版 本 中 设置 wid 为 9， 高 期 版 本 中 设置 wid 为 
3。 上 面 一 行 图 像 所 示 为 图 像 对 ， 左 下 方 图 像 是 标准 的 NCC 扫 平 面 法 重建 的 视差 
， 右 下 方 是 高 斯 版 本 的 视差 图 。 可 以 看 到 ， 与 标准 版 本 相 比 ， 高 斯 版 本 具有 和 较 少 
的 噪声 ， 但 缺少 很 多 细 克 信息。 























5-10: 使 用 归 一 化 互相 关 从 一 对 立体 图 像 中 计算 视差 图 





-A 
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5-11: 使 用 归 一 化 互相 关 从 一 对 立体 图 像 中 计算 视 郑 图 


练习 


(1) 使 用 本 章 介 绍 的 技术 来 验证 2.3.2 市 中 白宫 例子 的 匹配 (使 用 自己 的 例子 更 好 )， 
试看 能 人 否 提 高 结 有 的 性 能 。 

(2) 计算 图 像 对 的 特征 匹配 ， 并 估计 基础 矩阵 。 使 用 外 极 线 作为 第 二 个 输入 ， 通 过 在 
外 极 线 上 对 每 个 特征 点 寻找 最 佳 的 匹配 来 找到 更 多 的 匹配 。 

(3) 制作 一 个 包含 三 幅 或 更 多 图 像 的 数据 集 。 挑 选 一 对 图 像 ， 计 算 三 维 点 和 照相 机 和 拢 
阵 。 匹 配 特征 到 剩 下 的 图 像 中 以 歼 得 对 应 。 然 后 利用 这 些 对 应 的 三 维 点 使 用 后 方 
交汇 法 ， 计 算 其 他 图 像 的 照相 机 年 阵 。 绘 制 这 些 三 维 点 和 照相 机 的 位 置 。 你 可 以 
使 用 自己 的 数据 集 ， 也 可 以 使 用 牛津 多 视图 数据 集 的 数据 集 。 

(4) LA NCC 例子 中 相同 的 方式 使 用 滤波 如 ， 来 实现 使 用 SSD (squared differences, 
平方 差 ) 而 不 是 NCC 的 立体 视差 图 算法 版 本 。 

(5) 尝试 使 用 1.5 市 中 的 ROF 去 噪 来 对 立体 座 度 图 进行 去 品 。 对 产生 锋利 边缘 噪声 
的 互相 关 图 像 块 大 小 进行 实验 ， 使 用 平 请 去 除 产生 的 噪声 。 
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(6) 一 个 提高 视差 图 效果 的 方法 是 ， 比 较 从 左 图 到 右 图 计算 出 的 视差 图 和 从 右 图 到 左 
图 计算 出 的 视差 图 ， 然 后 仅 保 留 一 致 的 部 分 。 该 操作 会 清除 视差 图 中 闭塞 的 部 
分 。 实 现 该 想法 ， 然 后 将 结 来 和 一 个 方 癌 的 扫 平 面 的 结 末 比较 。 

(7) 纽约 公共 图 书馆 有 很 多 历史 悠久 的 立体 照片 。 打 开 http://stereo.nypl.org/gallery 并 下 载 
你 喜欢 的 照片 (点击 右 键 ， 保 存 为 JPEG 格式 的 文件 )。 这 些 图 像 应 该 进行 了 矫正 。 
将 照 厂 切 成 两 部 分 ， 在 该 图 像 上 运行 致密 深度 重建 代码 ， 然 后 查看 输出 结果 。 








op 6 = 








AS EET 28 LER RTE, HP RAB tay AE Aer RET RSE, Martina Ee ALY 
图 像 组 。 聚 类 可 以 用 于 识别 、 划 分 图 像 数 据 集 ， 组 织 与 导航 。 此 外 ， 我 们 还 会 对 聚 
类 后 的 图 像 进行 相似 性 可 视 化 。 


6.1 K-means 聚 类 


K-means 是 一 种 将 输入 数据 划分 成 x 个 徐 的 简单 的 聚 类 算法 。K-means 反复 提炼 初 
台 评 估 的 类 中 心 ， 步 又 如 下 : 


(1) 以 随机 或 猜测 的 方式 初始 化 类 中 心 uw,，i=1…k; 

(2) 将 每 个 数据 点 归并 到 离 它 距离 最 近 的 类 中 心 所 属 的 类 c; 

(3) 对 所 有 属于 该 类 的 数据 点 求 平均， 将 平均 值 作为 新 的 类 中 心 ; 
(4) 重复 步骤 (2) 和 和 步骤 (3) 直到 收敛 。 


K-means 试图 使 类 内 总 方差 最 小 : 


V= > Dem)’ 
x 是 输入 数据 ， 并 且 是 矢量 。 该 算法 是 启发 式 提炼 算法 ， 在 很 多 情形 下 都 适用 ， 但 
是 并 不 能 保证 得 到 最 优 的 结果 。 为 了 避免 初始 化 类 中 心 时 没 选取 好 类 中 心 初 值 所 千 
成 的 影响 ， 该 算法 通常 会 初始 化 不 同 的 类 中 心 进行 多 次 运算 ， 然 后 选择 方差 最 小 
的 结果 。 


137 


K-means 算法 最 大 的 缺陷 是 必须 预先 设 定 聚 类 数 上 E， 如 条 选择 不 恰当 则 会 导致 聚 类 
出 来 的 结案 很 差 。 其 优点 古 容 易 实现 ， 可 以 并 行 计算 ， 并且 对 于 很 多 别 的 问题 不 需 
要 任何 调整 就 能 够 直接 使 用 。 





6.1.1 Scipy 聚 类 包 
尽管 和 -means 算法 很 容易 实现 ， 但 我 们 没有 必要 目 己 实现 它 。scipy 矢量 量化 包 
scipy.cluster.vg 中 有 -means 的 实现 ,下面 是 使 用 方法 。 
为 便于 说 明 ， 我 们 先生 成 简单 的 二 维 数据 : 
from scipy.cluster.vq import * 


classi = 1.5 * randn(100,2) 
class2 = randn(100,2) + array([5,5]) 
features = vstack((class1,class2)) 


上 面 的 代码 生成 两 类 二 维 正 态 分 布 数据 。 用 k=2 对 这 些 数据 进行 聚 类 : 


centroids,variance = kmeans(features, 2) 





由 于 SciPy 中 实现 的 K-means 会 计算 若干 次 (默认 为 20 次 )， 并 为 我 们 选择 方差 最 
小 的 结 末 ， 所 以 这 里 返回 的 方差 并 不 是 我 们 真正 需要 的 。 现 在 ， 你 可 以 用 Scipy 包 
中 的 矢量 量化 国 数 对 每 个 数据 点 进行 归 类 : 


code,distance = vq(features, centroids) 





通过 上 面 得 到 的 code， 我 们 可 以 检查 古人 否 有 归 类 错误 。 为 了 将 其 可 视 化 ， 我 们 可 以 
画 出 这 些 数据 点 及 最 终 的 聚 类 中 心 : 





figure() 

ndx = where(code==0) [0] 
plot(features[ndx,0],features[ndx,1],'*") 
ndx = where(code==1)[0] 

plot (features[ndx,0],features[ndx,1],'r.') 
plot(centroids[:,0],centroids[:,1],'go') 
axis('off') 

show( ) 


国 数 where() 给 出 每 个 类 的 索引 ， 绘 制 出 的 结 采 如 图 6-1 所 示 。 











图 6-1: 一 个 对 二 维 数据 用 K-means 进行 聚 类 的 示例 。 类 中 心 标记 为 绿色 大 圆 环 ， 预 测 出 的 
类 分 别 标记 为 蓝 色 星 号 和 红色 点 。 


6.1.2 KRÆ 

让 我 们 在 1.3.6 节 的 字体 图 像 上 ， 我 们 用 K-means 对 这 些 字体 图 像 进 行 聚 类 。 文 件 
selectedfontimages.zip 包含 66 幅 来 自 该 字体 数据 集 fontinages WAR (为 了 便于 说 
明 这 些 聚 类 徐 ， 我 们 选择 这 些 图 像 做 简单 概述 ) 。 我 们 利用 之 前 计算 过 的 前 40 个 主 
成 分 进行 投 彩 ， 用 投影 系数 作为 每 幅 图 像 的 癌 量 摘 述 符 。 用 pickle 模块 载 入 模型 文 
件 ， 在 主 成 分 上 对 图 像 进行 投影 ， 然 后 用 下 面 的 方法 聚 类 : 


import imtools 
import pickle 
from scipy.cluster.vq import * 


# 获取 selected-fontimages 文件 下 图 像 文 件 名 ， 并 保存 在 列表 中 
imlist = imtools.get_imlist('selected fontimages/' ) 
imnbr = len(imlist) 


# BARRA SCF 

with open('a pca_modes.pkl','rb') as f: 
immean = pickle. load(f) 
V = pickle. load(f) 


# 创建 矩阵 ， 存 储 所 有 拉 成 一 组 形式 后 的 图 像 
immatrix = array([array(Image.open(im)).flatten() 
for im in imlist],'f') 


# 投影 到 前 40 个 主 成 分 上 
immean = immean.flatten() 
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projected = array([dot(V[:40],immatrix[i]-immean) for i in range(imnbr) |) 


# 进行 k-means RÆ 
projected = whiten(projected) 
centroids,distortion = kmeans (projected, 4) 


code,distance = vq(projected, centroids) 


与 之 前 一 样 ， 上 述 代码 code SPOS Ne eA BURT Tie. eH, RIE 
聚 类 数 k=4， 同 时 用 Scipy 的 whiten() 函数 对 数据 “白化 ”处 理 ， 并 进行 归 一 化 ， 
使 每 个 特征 具有 单位 方差 。 你 可 以 试 着 改变 其 中 的 参数 ， 比 如 主 成 分 数目 各， 观 
罕 聚 类 结案 有 何 改 变 。 利 用 下 面 的 代码 可 以 可 视 化 聚 类 后 的 结 琳 : 


# 绘制 聚 类 禾 
for k in range(4): 
ind = where(code==k) [0] 
figure() 
gray() 
for i in range(minimum(len(ind),40)): 
subplot (4,10, i+1) 
imshow(immatrix[ind[i]].reshape((25,25))) 
axis('off') 
show( ) 





1 AFR aE RE 7 RB ao, AeA BO Re UR 40 
幅 图 像 。 我 们 用 PyLab 的 subplot() 国 数 来 设 定 网 格 数 ， 图 6-2 是 上 面 对 字 体 图 像 聚 
成 4 类 后 的 可 视 化 结果 。 





关于 Scipy 中 K-means 实现 方法 以 及 scipy.cluster.vgq 模块 ， 详 见 参考 指南 http:// 


docs.scipy.org/doc/scipy/reference/cluster.vq.html. 


6.1.3 EERS ETITI ER 
为 了 便于 观察 上 面 是 如 何 利 用 主 成 分 进行 聚 类 的 ， 我 们 可 以 在 一 对 主 成 分 方 回 的 坐 
标 上 可 视 化 这 些 图 像 。 一 种 方法 是 将 图 像 投 影 到 两 个 主 成 分 上 上， 改变 投影 为 : 








projected = array([dot(V[[0,2]],immatrix[i]-immean) for i in range(imnbr) }) 


以 得 到 相应 的 坐标 (在 这 里 V[[0,2]] 分 别 是 第 一 个 和 第 三 个 主 成 分 )。 当 然 ， 你 也 可 
以 将 其 投影 到 所 有 成 分 上 ， 之 后 挑选 出 你 需要 罗列 。 








agdaagmaaidad aaaaaaaaaa 
qaaaadaa ddadddaddd 


MACAMA adaaadad@a@d 
aaaaaÊaacl ad? 
dAAAdA 


6-2; 用 40 个 主 成 分 数 对 字体 图 像 进 行 K-means BÆ (k=4) 


我 们 用 PIL 中 的 ImageDraw 模块 进行 可 视 人 化。 假设 你 有 如 上 所 示 投 影 后 的 图 像 ， 及 
保存 有 图 像 文件 名 的 列表 ， 利 用 下 面 简短 的 脚本 可 以 生成 如 图 6-3 所 示 的 结果 : 





from PIL import Image, ImageDraw 


# 高 和 宽 


h,w = 1200,1200 


# 创建 一 幅 和 白色 背景 图 
img = Image.new('RGB', (w,h), (255,255,255)) 
draw = ImageDraw.Draw(img) 





# 绘制 坐标 轴 
draw. line((0,h/2,w,h/2), fill=(255,0,0)) 
draw. line((w/2,0,w/2,h),fill=(255,0,0)) 


# 缩放 以 适应 坐标 系 
scale = abs(projected).max(0) 
scaled = floor(array([ (p / scale) * (w/2-20,h/2-20) + (w/2,h/2) for p in projected])) 





# 粘贴 每 幅 图 像 的 缩 略 图 到 白色 背景 图 片 
for i in range(imnbr): 
nodeim = Image.open(imlist[i]) 
nodeim.thumbnail((25,25) ) 
ns = nodeim.size 
img .paste(nodeim, (scaled[i][0]-ns[0]//2,scaled[i][1]- 
ns[1]//2,scaled[i][0]+ns[0]//2+1,scaled[i][41]+ns[1]//2+1)) 


img.save('pca_ font. jpg') 
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图 6-3: 在 成 对 主 成 分 上 投影 的 字体 图 像 。 左 图 用 的 是 第 一 个 和 第 二 个 主 成 分 ， 右 图 用 的 是 
第 二 个 和 第 三 个 主 成 分 


这 里 ， 我 们 用 到 了 整数 或 floor 四 下 取 整 除法 运算 符 //， 通 过 移 去 小 数 点 后 面 的 部 
分 ， 可 以 返回 各 个 缩 略 图 在 白色 背景 中 对 应 的 整数 坐标 位 置 。 


这 类 图 像 说 明 这 些 字 体 图 像 在 40 维 里 的 分 布 情况 ， 对 于 选择 一 个 好 的 摘 述 子 很 有 大 
助 。 可 以 很 请 茎 地 看 到 ， 二 维 投影 后 相似 的 字体 图 像 距 离 较 近 。 


6.1.4 ”像素 聚 类 

在 结束 本 下 之前， 我 们 来 看 一 个 对 单 幅 图 像 中 的 像素 而 非 全 部 图 像 进行 聚 类 的 例子 。 
将 图 像 区 域 或 像素 合并 成 有 意义 的 部 分 称 为 图 像 分 害 ， 它 是 第 9 章 的 主题 。 除 了 在 
一 些 简 单 的 图 像 上 ， 单纯 在 像素 水 平 上 应 用 K-means 得 出 的 结 采 往往 是 这 无 意义 
的 。 要 产生 有 意义 的 结果 ， 往 往 需 要 更 复杂 的 类 模型 而 非 平均 像素 色彩 或 空间 一 致 
性 。 现 在 ， 我 们 仅 会 在 RGB =i ik WR ah bie FA K-means 进行 聚 类 ， 分 割 问 题 
的 处 理 方 法 会 在 之 后 谈 到 (9.2 节 ) 给 予 关 注 及 给 出 细节 部 分 。 

下 面 的 代码 示例 载 入 一 幅 图 像 ， 用 一 个 步 长 为 steps 的 方形 网 格 在 图 像 中 请 动 ， 每 
请 一 次 对 网 格 中 图 像 区 域 像 素 求 平均 值 ， 将 其 作为 新 生成 的 低 分 辨 率 图 像 对 应 位 置 
处 的 像素 值 ， 并 用 K-means 进行 聚 类 : 




















from scipy.cluster.vq import * 
from scipy.misc import imresize 


steps = 50 # 图 像 被 划分 成 steps x steps 的 区 域 
im = array(Image.open('empire. jpg' )) 





dx = im.shape[0] / steps 
dy = im.shape[1] / steps 


# 计算 每 个 区 域 的 颜色 特征 

features = |] 

for x in range(steps): 

for y in range(steps): 

R = mean(im[x*dx: (x+1)*dx, y*dy: (y+1)*dy,0]) 
G = mean(im[x*dx: (x+1)*dx, y*dy: (y+1)*dy,1]) 
B = mean(im[x*dx: (x+1)*dx, y*dy: (y+1) *dy, 2]) 
features .append([R,G,B]) 

features = array(features,'f') # 变 为 数组 


# RR 
centroids,variance = kmeans(features, 3) 
code,distance = vq( features, centroids) 


# 用 聚 类 标记 创建 图 像 
codeim = code.reshape(steps, steps) 
codeim = imresize(codeim, im. shape[:2],interp='nearest’ ) 


figure() 
imshow(codeim) 
show() 


K-means 的 输入 是 一 个 有 steps x steps 行 的 数组 ， 数 组 的 每 一 行 有 3 列 ， 各 列 分 别 
为 区 域 块 R、G、B 三 个 通道 的 像素 平均 值 。 为 可 视 化 最 后 的 结果 ,我们 用 Scipy 的 
imresize() 函数 在 原 图 像 坐标 中 显示 这 幅 steps x steps 的 图 像 。 参 数 interp 指定 插 
值 方法 ;我们 在 这 里 采用 最 近邻 插值 法 ， 以 便 在 类 间 进 行 变 换 时 不 需要 引入 新 的 像 
RIE. 


6-4 显示 了 用 50 x 50 和 100 x 100 窗口 对 两 幅 相 对 比较 简单 的 示例 图 像 进行 像素 
聚 类 后 的 结果 。 注 意 ，K-means 标签 的 次 序 是 任意 的 (在 这 里 的 标签 指 最 终结 果 中 
图 像 的 颜色 ) 。 正 如 你 所 看 到 的 ， 尽 管 利用 窗口 对 它 进行 了 下 采样 ， 但 结果 仍然 是 有 
噪声 的 。 如 果 图 像 基 些 区 域 没 有 空间 一 致 性 ， 则 很 难 将 它们 分 开 ， 如 下 方 图 中 小 男 
孩 和 章 坪 的 图 。 空 间 一 致 性 和 更 好 的 分 割 方 法 以 及 其 他 的 图 像 分 割 算法 会 在 后 面 讨 
论 。 现 在 ， 让 我 们 继续 来 看 下 一 个 基本 的 聚 类 算法 。 
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dar baie, acai 





6-4: 基于 颜色 像素 值 用 K-means 对 像素 进行 聚 类 的 结果 。 左 边 是 原始 图 像 ， 中 间 是 用 k=3 
和 50 x 50 大 小 的 窗口 进行 聚 类 的 结果 ; 右边 是 用 k=3 和 100 x 100 大 小 的 窗口 进行 聚 类 的 结 


6.2 ”层次 聚 类 

层次 聚 类 (或 凝聚 式 聚 类 ) 是 另 一 种 简单 但 有 效 的 聚 类 算法 ， 其 思想 是 基于 样本 间 
成 对 距离 建立 一 个 简 相 似 性 树 。 该 算法 首先 将 特征 向 量 距离 最 近 的 两 个 样本 归并 为 
一 组 ， 并 在 树 中 创建 一 个 “平均 ”市 点 ， 将 这 两 个 距离 最 近 的 样本 作为 该 “平均 ” 
TA PITA: 然后 在 剩 下 的 包含 任意 平均 点 的 样本 中 寻找 下 一 个 最 近 的 对 ， 
重复 进行 前 面 的 操作 。 在 每 一 个 节点 处 保存 了 两 个 子 币 点 之 旧 的 距离 。 历 整个 树 ， 
通过 设 定 的 国 值 ， 志 历 过 程 可 以 在 比 国 值 大 的 节点 位 置 终止 ， 从 而 提取 出 聚 类 徐 。 


层次 聚 类 有 和 奋 干 优点 。 例 如 ， 利 用 树 结 构 可 以 可 视 化 数据 间 的 关系 ， 并 显示 这 些 禾 
是 如 何 关 联 的 。 在 树 中 ， 一 个 好 的 特征 向 量 可 以 给 出 一 个 很 好 的 分 离 结果 。 男 外 一 
个 优点 古 ， 对 于 给 定 的 不 同 的 国 值 ， 可 以 直接 利用 原来 的 树 ， 而 不 需要 重新 计算 。 














不 足 之 处 是 ， 对 于 实际 需要 的 聚 类 徐 ， 我 们 需要 选择 一 个 合适 的 国 值 。 


让 我 们 看 看 层次 聚 类 算法 怎样 在 代码 中 体现 。 创 建文 件 hcluster.py， 将 下 面 代码 添 
加 进去 (该 代码 受 参 考 文献 [31] 中 层次 聚 类 例子 的 局 发 ) : 


from itertools import combinations 


class ClusterNode(object): 
def init  (self,vec,left,right,distance=0.0,count=1): 
selt dert = lert 
self.right = right 
self.vec -= vec 
self.distance = distance 
self.count = count # 只 用 于 加 权 平 均 


def extract_clusters(self,dist): 
""" 从 层次 聚 类 树 中 提取 中 离 小 于 dist 的 子 树 禾 群 列表 """ 


if self.distance < dist: 





return [self] 
return self.left.extract_clusters(dist) + self.right.extract_clusters(dist) 


def ae cluster elements(self): 
Wud 聚 类 子 树 中 返 回 元 素 的 jd mn 
return self.left.get cluster elements() + self.right.get_ cluster elements() 





def get_height(self): 
nun 返回 节点 的 高 度 ， 高 度 是 各 2 分 支 的 和 mn 
return self.left.get height() + self.right.get_height() 





def get _depth(self): 
“"" 返回 节点 的 深度 ， 深 度 是 每 个 子 节点 取 最 大 再 加 上 它 的 自身 距离 "" 
return max(self.left.get depth(), self.right.get depth()) + self.distance 


class ClusterLeafNode(object): 
def init (self,vec,id): 
self.vec = vec 
self.id = id 


def extract_clusters(self,dist): 
return [self | 


def get cluster elements(self): 
return [self.id] 


: TE Scipy 聚 类 包 中 ， 有 一 个 层次 聚 类 的 版 本 ， 如 采 你 喜欢 可 以 直接 使 用 。 因 为 我 们 需要 创建 树 、 并 用 
缩 略 图 可 视 化 树 状 图 的 类 ， 所 以 这 里 我 们 不 使 用 该 版 本 。 
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def get_height(self): 
return 1 


def get _depth(self): 
return 0 


def L2dist(v1,v2): 
return sqrt(sum((v1-v2)**2) ) 


def Lidist(v1,v2): 
return sum(abs(v1-v2) ) 


def hcluster(features,distfcn=L2dist): 
"FELIS JA TAPE EAT IR """ 





# 用 于 保存 计算 出 的 距离 


distances = {} 


# 每 行 初始 化 为 一 个 族 
node = [ClusterLeafNode(array(f),id=i) for i,f in enumerate(features) | 


while len(node)>1: 
closest = float('Inf') 





# 遍历 每 对 ， 寻 找 最 小 中 离 
for ni,nj in combinations(node,2): 
if (ni,nj) not in distances: 
distances[ni,nj] = distfcn(ni.vec,nj.vec) 


d = distances[ni,nj] 
if d<closest: 
closest = d 
lowestpair = (ni,nj) 
ni,nj = lowestpair 


# 对 两 个 簇 求 平均 


new vec = (ni.vec + nj.vec) / 2.0 


# BESTA M 

new node = ClusterNode(new_vec, left=ni, right=nj,distance=closest) 
node. remove(ni) 

node. remove(nj) 

node. append(new_node) 


return node[0| 
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我 们 为 树 市 点 创建 了 两 个 类 ， 即 ClusterNode 和 ClusterLeafNode， 这 两 个 类 将 用 于 
创建 聚 类 树 ， 其 中 国 数 hcluster() 用 于 创建 树 。 首 先 创 建 一 ae 点 的 列表 ， 
然后 根据 选择 的 距离 度量 方式 将 距离 最 近 的 对 归并 到 一 起 ， 返 回 的 终 节 点 即 为 树 的 
根 。 对 于 一 个 行为 特征 问 量 的 矩阵 ， 运 行 hcluster() 会 创建 和 返回 聚 类 树 。 


距离 度量 的 选择 依赖 于 实际 的 特征 向 量 ， 这 里 我 们 利用 欧式 距离 L-，( 同 时 提供 了 
L 距离 度量 函数 )， 不 过 你 可 以 创建 任意 距离 度量 函数 ， 并 将 它 作 为 参数 传递 给 
hcluster()。 对 于 每 个 子 树 ， 计 算 其 所 有 方 点 特征 癌 量 的 平均 值 ， 作 为 新 的 特征 问 
量 来 表示 该 子 树 ， 并 将 每 个 子 树 视 为 一 个 对 象 。 当 然 ， 还 有 其 他 将 哪 两 个 节点 合并 
在 一 起 的 方案 ， 比 如 在 两 个 子 树 中 使 用 对 象 则 距离 最 小 的 单 向 锁 ， 及 在 两 个 子 树 中 
用 对 象 间距 离 最 大 的 完全 锁 。 选 择 不 同 的 锁 会 生成 不 同类 型 的 紧 类 树 。 


为 了 从 树 中 提取 聚 类 禾 ， 需 要 从 央 部 壳 历 树 直 至 一 个 距离 小 于 设 定 国 值 的 节点 终止 ， 
这 通过 递归 很 容易 做 到 。ClusterNode 的 extract clusters() 方法 用 于 处 理 该 过 程 ， 
如 果 诈 点 间距 离 小 于 阅 值 ， DA 个 列表 返回 节点 ， 人 否则 调用 子 节 点 ( 叶 布 点 通常 

回 它们 自身)。 调 用 该 函数 会 返回 一 个 包含 聚 类 族 的 子 树 列 表 。 对 于 每 一 个 子 聚 
类 族 ， 为 了 得 到 包含 对 象 id A 需要 过 历 每 个 子 树 ， 并 用 方法 get_cluster_ 
elements() 返回 一 个 包含 叶 币 点 的 列表 。 


下 面 ， 我 们 在 一 个 简单 的 例子 中 观察 该 聚 类 过 程 。 首 先 创 建 一 些 二 维 数 据点 (和 之 
前 K-means 一 样 ) : 








classi = 125% “randi(10052) 
class2 = randn(100,2) + array([5,5]) 
features = vstack((class1,class2)) 


对 这 些 数 据点 进行 聚 类 ， 设 定 国 值 《这 里 的 国 值 设 定 为 5) ， 从 列表 中 提取 这 些 聚 类 
禾 ， 并 在 控制 台 打 印 出 来 : 


import hcluster 

tree = hcluster.hcluster(features ) 
clusters = tree.extract_clusters(5) 

print ‘number of clusters’, len(clusters) 


fOr Cin Clusters: 
print c.get cluster elements() 


打印 结 采 应 该 与 下 面 类 似 : 


number of clusters 2 
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更 多 这 主要 依赖 于 实际 生成 的 二 维 数据 。 在 这 个 对 二 维 数据 聚 类 的 简单 例子 中 ， 一 
个 类 中 的 值 应 该 小 于 100， 另 外 一 个 应 该 大 于 等 于 100, 
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我 们 来 看 一 个 基于 图 像 颜 色 信 息 对 图 像 进行 聚 类 的 例子 。 文 件 sunsets.zip 中 包含 100 张 
图 像 ， 这 些 图 像 是 用 “sunset” 和 “sunsets” 关 键 字 在 Flickr 下 载 下 来 的 。 在 这 个 例子 
中 ， 我 们 用 颜色 直方 图 作为 每 幅 图 像 的 特征 癌 量 。 虽 然 这 样 处 理 有 些 向 单 粗 糙 ， 但 仍 
然 能 够 很 好 地 说 明 分 层 聚 类 的 过 程 。 在 包 仿 这 些 日 落 图 像 的 文件 夹 中 运行 下 面 的 代码 : 


import os 


import hcluster 


# 创建 图 像 列 表 
path = 'flickr-sunsets/' 








imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 


# 提取 特征 向 量 ， 每 个 颜色 通道 量化 成 8 个 小 区 间 
features = zeros([len(imlist), 512]) 
for i,f in enumerate(imlist): 


im = array(Image.open(f) ) 


# 多 维 直 方 图 


h,edges 


histogramdd(im.reshape(-1,3),8,normed=True, 


range=[(0,255),(0,255), (0,255) ]) 


features[i] = h.flatten() 


tree = hcluster.hcluster(features ) 


我 们 将 R、G、B 三 个 颜色 通道 作为 特征 向 量 ， 将 其 传递 到 NumPy 的 histogramdd() 
中 ， 该 函数 能 够 计算 多 维 直 方 图 (本 例 中 是 三 维 )。 我 们 在 每 个 颜色 通道 中 使 用 8 个 
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小 区 间 进 行 量化 ， 将 三 个 通道 量化 后 的 小 区 间 拉 成 一 行 后 便 可 用 512 (8x 8x8) 维 
的 特征 问 量 描述 每 幅 图 像 。 为 避免 图 像 尺 寸 不 一 怪 ， 我 们 用 “normed=True” 归 一 化 
直方 图 ， 并 将 每 个 颜色 通道 范围 设置 为 0...255。 将 reshape() 第 一 个 参数 设置 为 -1 
会 自动 确定 正确 的 尺寸 ， 故 可 以 创建 一 个 输入 数组 来 计算 以 RGB 颜色 值 为 行 问 量 的 
直方 图 。 

为 了 可 视 化 聚 类 树 ， 我 们 可 以 画 出 树 状 图 。 树 状 图 是 一 种 显示 树 布局 的 图 表 。 在 判 
定 给 出 的 的 述 子 同 量 好 坏 ， 以 及 在 特征 场合 芳 虑 什么 是 相似 的 时 候 ， 树 状 图 可 以 提 
供 有 用 的 信息 。 将 下 面 的 代码 添加 到 hcluster.py 中 : 





from PIL import Image, ImageDraw 


def draw_dendrogram(node, imlist, filename='clusters.jpg'): 


"" 绘制 聚 类 树 状 图 ， 并 保存 到 文件 中 "”" 


# 高 和 宽 
rows = node.get_height()*20 
cols = 1200 


# 距离 缩放 因子 ， 以 便 适 应 图 像 宽度 
s = float(cols-150)/node.get depth() 


# 创建 图 像 ， 并 绘制 对 象 
im = Image.new('RGB', (cols,rows),(255,255,255)) 
draw = ImageDraw.Draw(im) 


# 初始 化 树 开始 的 线条 
draw. line((0,rows/2,20,rows/2),fill=(0,0,0)) 


# 递归 地 画 出 节点 

node. draw(draw, 20, (rows/2),s,imlist, im) 
im.save(filename) 

im. show() 


ZE, PRK REA ST draw) 方法 ， 将 该 方法 添加 到 ClusterNode 类 中 : 


xs 


def draw(self,draw,x,y,s,imlist,im): 


vo" 用 图 像 缩 咯 图 递归 地 画 出 叶 节点 """ 


h1 = int(self.left.get height()*20 / 2) 
h2 = int(self.right.get_height()*20 /2) 
top = y-(h1+h2) 

bottom = y+(h1+h2) 


# TURER 
draw. line((x, topth1,x,bottom-h2),fill=(0,0,0)) 
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# 水 平 线 

Ll. =s selfa stances 

draw. line((x, topth1, x+11, top+h1) , fill=(0,0,0)) 

draw. Line((x,bottom-h2,x+l1l,bottom-h2), fill=(0,0,0)) 


# 递归 地 画 左 边 和 右边 的 子玉 点 
self.left.draw(draw,x+11l,top+h1,s,imlist,im) 
self.right.draw(draw, xtll,bottom-h2,s,imlist, im) 





在 画 实 际 图 像 缩 略图 上 时， 叶 节 点 有 自己 的 方法 ， 将 该 方法 添加 到 ClusterLeafNode 
类 中 : 


def draw(self,draw,x,y,s,imlist,im): 
nodeim = Image.open(imlist[self.id]) 
nodeim. thumbnail (| 20, 20] ) 
ns = nodeim.size 
im. paste(nodeim, [int(x), int(y-ns[1]//2), int(x+ns[0]),int(ytns[1]-ns[1]//2) ]) 


树 状 图 的 高 和 子 部 分 由 距离 决定 ， 这 些 都 需要 调整 适应 所 选择 的 图 像 分 辩 率 。 
随 着 坐标 向 下 传递 到 下 一 级 ， 会 递归 给 E E 
叶 节 点 的 缩 略 图 ， 使 用 get height() # get depth() 这 两 个 辅助 函数 可 以 获得 树 的 


高 和 宽 。 
树 状 图 可 以 通过 下 面 的 代码 绘制 ， 并 保存 在 sunset.pdf 中 : 
hcluster.draw_dendrogram(tree, imlist, filename='sunset.pdt' ) 


图 6-5 展示 了 日 沙 图 像 聚 类 后 的 树 状 图 。 可 以 看 到 ， 树 中 颜色 相似 的 图 像 跑 离 较 近 
到 6-6 中 为 三 个 示例 竹 。 可 以 通过 下 面 的 代码 提取 该 例子 中 的 禾 


# 设置 一 些 (任意 的 ) TLL HT UCR ARIK 


clusters = tree.extract clusters(0.23*tree.distance) 





# 绘制 聚 类 禾 中 元 素 超过 3 个 的 那些 图 像 
torc in clusters: 
elements = c.get_cluster_elements() 
nbr elements = len(elements) 
if nbr_elements>3: 
figure() 
for p in range(minimum(nbr_ elements, 20)): 
subplot(4,5,p+1) 
im = array(Image.open(imlist[elements|[p]])) 
imshow(im) 
axis('off') 
show( ) 
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A 6-5: 用 100 幅 日 落 图 像 进行 层次 聚 类 ， 将 RGB 空间 的 512 个 小 区 间 直 方 图 作为 每 幅 图 
像 的 特征 向 量 。 树 中 挨 的 相近 的 图 像 具 有 相似 的 颜色 分 布 
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图 6-6: 用 100 幅 日 落 图 像 进行 层次 聚 类 的 示例 聚 类 艇 ， 阔 值 集合 设 定 为 树 中 最 大 节点 距离 
的 23% 


作为 最 后 一 个 例子 ， 我 们 对 前 面 的 字体 图 像 创 建 一 个 树 状 图 : 


tree = hcluster.hcluster(projected) 
hcluster.draw_dendrogram(tree, imlist, filename='fonts.jpg' ) 


其 中 ，projected 和 imlist 是 6.1 节 K-means 例子 中 的 变量 。 图 6-7 显示 了 对 字体 图 
像 进行 层次 聚 类 后 的 树 状 图 。 


6.3 WRX 


谱 肥 类 方法 是 一 种 有 趣 的 聚 类 算法 ， 与 前 面 K-means 和 层次 聚 类 方法 截然 不 同 。 


Fn cH (An WHR), tase (eH Ae HER, APERI BEE) 是 一 个 
nX n WISER, FEBS Ee A TA ABLE a ie, BE BR AE PD PE BE RY 
建 谱 矩阵 而 得 名 的 。 对 该 谱 矩阵 进行 特征 分 解 得 到 的 特征 向 量 可 以 用 于 降 维 ， 然 后 


RK. 


详 聚 类 的 优点 之 一 是 仅 需 输入 相似 性 和 矩阵， 并 且 可 以 采用 你 所 想到 的 任 总 度量 方式 
构建 该 相似 性 矩阵 。 像 K-means 和 层次 聚 类 需要 计算 那些 特征 癌 量 求 平均 ， 为 了 计 
算 平 均值 ， 会 将 特征 或 描述 子 限 制 为 癌 量 。 而 对 于 谱 方 法 ， 特 征 问 量 就 没有 类 别 限 
制 ， 只 要 有 一 个 “距离 ”或 “相似 性 ”的 概念 即 可 。 
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图 6-7: 用 66 幅 选 定 字体 图 像 ， 使 用 40 个 主 成 分 作为 特征 量 ， 用 层次 聚 类 方法 进行 聚 类 


下 面 说 明 谱 聚 类 的 过 程 。 给 定 一 个 nxn 的 相似 矩阵 S$，s; 为 相似 性 分 数 ， 我 们 可 以 
创建 一 个 矩阵 ， 称 为 拉 普 拉 斯 矩阵 : 


L 2 I- D PSD’ 





注 1: 拉 普 拉 斯 矩阵 有 时 可 以 用 LL=D“SD“ 代 殖 ， 但 并 无 太 大 差别 ， 因 为 它 只 改变 特征 值 ， 而 不 改变 特征 
器 量 。 
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其 中 , I 是 单位 矩阵, D 是 对 角 和 矩阵 ， 对 角 线 上 的 元 素 是 S$ 对 应 行 元 素 之 和 ， 
D=diag(d), 4= 2 ,5;。 拉 普 拉 斯 算 阵 中 的 D A: 








poes Jad . 
ile. 
Vd, 
J TERRE Hi, XFA EHE BE PA Se s;， 我 们 使 用 较 小 的 值 并 且 要 求 
sj 宇 0 (在 这 种 情况 下 ， 距 离 矩 阵 可 能 更 合适 )。 


计算 工 的 特征 回 量 ， 并 使 用 个 最 大 特征 值 对 应 的 个 特征 癌 量 ， 构 建 出 一 个 特征 
器 量 集 ( 记 住 ， 我 们 可 能 并 没有 以 任何 东西 来 开始 )， 类 族 。 创 建 一 
个 和 矩阵， 该 矩阵 的 各 列 是 由 之 前 求 出 的 上 个 特征 同 量 构成 ， 每 一 行 可 以 看 做 一 个 新 
的 特征 同 量 ， 长 度 为 k。 这 些 新 的 et a a Rae, Æ 
DORA HIER AE HR FME, TRR R EF J WZ A FP HY A eH BE OD SR SY 
Br ee IE [el x 在 某 些 情况 下 ， 不 会 首先 使 用 聚 类 算法 。 


讲解 了 足够 的 理论 ， 我 们 来 看 看 真实 的 例子 中 谱 聚 类 算法 的 代码 。 我 们 再 次 使 用 
1.3.6 Ý K-means 例子 中 的 字体 图 像 。 


from scipy.cluster.vq import * 
n = len(projected) 


# 计算 距离 矩阵 
S = array([[ sqrt(sum((projected[i]-projected[j])**2)) 
for i in range(n) ] for j in range(n)], 'f') 


# 创建 拉 普 拉 斯 矩阵 

rowsum = sum(S,axis=0) 

D = diag(1 / sqrt(rowsum) ) 
I = identity(n) 

L = I - dot(D,dot(S,D)) 





# 计算 矩阵 | 的 特征 向 量 
U,sigma,V = linalg.svd(L) 


k = 5 
MERE L 的 前 《个 特征 向 量 (eigenvector) 中 创建 特征 向 量 (feature vector) 
至 加 特征 向 量 作 为 数组 的 列 


+ + 





features = array(V[:k]).T 


# k-means RÆ 

features = whiten(features) 
centroids,distortion = kmeans(features,k) 
code,distance = vq( features, centroids) 


# 绘制 聚 类 禾 
for c in range(k): 
ind = where(code==c) [0] 
figure() 
for i in range(minimum(len(ind),39)): 
im = Image.open(path+imlist[ind[i] ]) 
subplot (4, 10, i+1) 
imshow(array (im) ) 
axis('equal') 
axis('off') 
show() 


在 本 例 中 ,我 们 用 两 两 旧 的 欧式 距离 创建 矩阵 S$， 并 对 个 特征 癌 量 (eignvector) 
FA #7 ALA) K-means TRR (在 该 例 中 ，f=5)。 注 意 ， 和 矩阵 人 包含 的 是 对 特征 值 
进行 排序 后 的 特征 问 量 。 最 后 ， 绘 制 出 这 些 聚 类 族 。 图 6-8 显示 了 运行 后 的 聚 类 和 族 ，; 
需要 记 住 的 古 ， 在 K-means 阶段 ， 每 次 运行 的 结 末 可 能 不 同 。 








WAGHWWAN @CAa@da@tdcdadad 
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agadaAAaaAAaAdaAAAa Qaadadaaadtil 
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qgagda@adaagamaa@aga 
aaaa 
6-8: 用 拉 普 拉 斯 息 阵 的 特征 向 量 对 字体 图 像 进行 谱 聚 类 


我 们 也 可 以 在 没有 任何 特征 问 量 或 没有 严格 定义 相似 性 的 例子 中 尝试 该 算法 。2.3 市 
中 带 有 地 理 标签 的 Panoramio 图 像 是 基于 它们 之 间 有 多 少 匹 配 的 局 部 描述 符 连接 起 
来 的 。2.3.2 证 的 矩阵 是 一 个 用 分 数 表示 的 相似 性 矩阵 ， 其 中 分 数 等 于 匹配 的 特征 数 
(没有 归 一 化 )。 由 于 imlist 列表 包含 了 图 像 文件 名 ， 并 已 用 NumPy 的 savetxt() 将 相 
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似 性 矩阵 保存 到 了 文件 中 ， 所 以 我 们 只 需 修改 上 而 代 码 的 前 面 儿 行 : 


n = len(imlist) 


# 载 入 相似 矩阵 并 重新 格式 化 


S = loadtxt('panoramio matches.txt' ) 
Se 7 15.4 16-6) 


这 里 对 分 数 进行 转换 ， 使 得 相似 图 像 的 分 数值 较 小 ， 这 样 我 们 就 不 需要 修改 上 面 的 
代码 。 我 们 添加 了 一 个 很 小 的 数 以 防止 与 0 相 除 ， 后 面 的 代码 不 需要 修改 。 


在 该 例 中 选择 kx 有些 技 巧 。 很 多 人 会 认为 这 里 只 有 两 类 ( 即 白宫 的 两 侧 )， 以 及 其 他 
一 些 垃圾 图 像 。 用 k=2 可 以 得 到 类 似 图 6-9 的 结果 ， 其 中 一 个 聚 类 徐 是 包含 很 多 白 
宫 一 侧 的 图 像 ， 另 一 个 聚 类 徐 是 白宫 另 一 侧 的 图 像 和 其 他 所 有 垃圾 图 像 。 将 丰 设 定 
为 一 个 较 大 的 值 ， 比 如 k=10， 则 有 些 聚 类 簇 可 能 只 包含 一 幅 图 像 (很 可 能 是 垃圾 图 
像 ) ， 另 一 些 是 真实 的 聚 类 符 。 图 6-10 给 出 了 上 面 示例 代码 运行 的 结果 。 在 该 例 中 ， 
仅 有 两 个 真实 的 聚 类 徐 ， 每 个 聚 类 徐 包 含 和 白宫 一 个 侧面 的 图 像 。 




















图 6-9: 用 人 =2、 局 部 特征 匹配 数 作为 相似 性 分 数 对 日 写 地 理 图 像 进行 谱 聚 类 的 结果 














10: A k10, 局 部 特征 匹配 数 作为 相似 性 分 数 对 日 宫 地 理 图 像 进 行 谱 聚 类 的 结果 。 这 
只 展示 了 图 像 数 大 于 1 的 聚 类 艇 


这 里 展示 的 谱 聚 类 算法 有 很 多 不 同 的 版 本 供 选 择 ， 它 们 对 如 何 构 造 矩 阵 工 和 如 何 处 理 
特征 回 量 有 各 目 不 同 的 思想 。 关 于 谱 聚 类 及 一 些 稍 用 算法 的 细 攻 ， 参 见 综述 文章 [37]。 


练习 


(1) 层次 K-means 是 一 种 聚 类 方法 ， 该 方法 递归 地 应 用 K-means 进行 聚 类 ， 创 建 一 
棵 和 逐步 提炼 聚 类 徐 的 树 。 在 此 情形 下 ， 树 的 每 一 个 节点 都 有 大 个 子 节 点 。 实 现 层 
次 K-means 算法 并 应 用 到 前 面 的 字体 图 像 上 。 

(2) 类 似 层 次 聚 类 生成 树 状 图 ， 使 用 上 面 练习 中 的 层次 K-means 算法 ， 将 树 可 视 化 ， 

显示 每 个 聚 类 复 区 点 的 平均 图 像 。 提 示 : 你 可 以 歼 取 平 均 PCA 系数 特征 癌 量 ， 
并 用 PCA 的 基 对 每 个 特征 向 量 进 行 图 像 合成 。 

(3) 通过 修改 层次 聚 类 所 使 用 的 类 以 包含 市 点 下 的 图 像 数 ， 你 可 以 获得 一 种 人 简单 快速 
的 方法 来 寻找 给 定 大 小 的 相似 组 。 实 现 这 个 小 的 改动 ， 并 用 于 处 理 真 实 的 数据 ， 
看 看 其 表现 如 何 。 

(4) 用 单 向 俩 和 完全 锁 来 构建 层次 肾 类 树 进 行 实验 ， 这 些 聚 类 后 的 族 有 什么 不 同 ? 

(5) 在 一 些 谱 聚 类 算法 中 ， 用 到 的 是 矩阵 是 D'S 而 不 是 工 。 用 该 矩阵 代替 拉 普 拉 斯 
和 矩阵， 并 将 其 应 用 于 一 些 不 同 的 数据 集 。 

(6) 从 Flickr 下 载 一 些 用 不 同 关 键 字 搜索 出 的 图 像 ， 像 之 前 的 日 沙 图 像 一 样 提取 
RGB 直方 图 ， 用 本 章 介 绍 的 某 个 聚 类 方法 对 这 些 图 像 进行 聚 类 。 你 能 用 这 些 聚 
类 族 分 开 这 些 图 像 吗 ? 
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图 像 搜 索 





本 半 将 展示 如 何 利 用 文本 挖掘 技术 对 基于 图 像 视 完 内 容 进 行 图 像 搜 索 。 本 半 阐 明了 
提出 利用 视 沉 单词 的 基本 思想 ， 并 解释 了 完整 的 安装 细 习 ， 还 在 一 个 示例 数据 集 上 
进行 了 测试 。 


7.1 基于 内 容 的 图 像 检索 


在 大 型 图 像 数 据 库 上 ，CBIR (Content-Based Image Retrieval， 基 于 内 容 的 图 像 检 索 ) 
技术 用 于 检索 在 视觉 上 有 具 相 似 性 的 图 像 。 这 样 返 回 的 图 像 可 以 是 颜色 相似 、 纹 理 相 
似 、 图 像 中 的 物体 或 场景 相似 ; 总 之 ， 基 本 上 可 以 是 这 些 图 像 上 自身 共有 的 任何 信息 。 


对 于 高 层 查 询 ， 比 如 寻找 相似 的 物体 ， 将 查询 图 像 与 数据 库 中 所 有 的 图 像 进行 完全 
比较 (比如 用 特征 匹配 ) 往往 是 不 可 行 的 。 在 数据 库 很 大 的 情况 下 ， 这 样 的 查询 方 
式 会 耗费 过 多 时 间 。 在 过 去 的 儿 年 里 ,人 研究 者 成 功 地 引入 文本 挖 气 技术 到 CBIR 中 
处 理 问题 ， 使 在 数 百 万 图 像 中 搜索 具有 相似 内 容 的 图 像 成 为 可 能 


ees xe lel ee 

空间 模型 是 一 个 用 于 表示 和 搜索 文本 文档 的 模型 。 我 们 将 看 到 ， 它 基本 上 可 以 
应 用 于 任何 对 旬 奖 型， 包括 国信 。 WE eee O kxe, eam 
是 由 文本 词 频 直方 图 构成 的 '。 换 句 话说 ， 矢 量 包含 了 每 个 单词 出 现 的 次 数 ， 而 且 在 














注 1: 经 第 可 以 看 到 用 “术语 ”替代 “ 词 *"， 两 者 在 矢量 空间 模型 中 表达 的 意义 相同 。 
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其 他 别 的 地 方 包 含 很 多 0 元素。 由 于 其 忽略 了 单词 出 现 的 顺序 及 位 置 ， 该 模型 也 被 
PRAY BOW 表示 模型 。 


通过 单词 计数 来 构建 文档 直方 图 向 量 v， 从 而 建立 文档 索引 。 通 常 ， 在 单词 计数 时 
会 名 上 略 掉 一 些 常 用 词 ， 如 这 “和” 是” 等， 这 些 第 用 词 称 为 停 用 词 。 由 于 每 篇 
文档 长 度 不 同 ， 故 除 以 直方 图 总 和 将 向 量 归 一 化 成 单位 长 度 。 对 于 直方 图 丫 量 中 的 
每 个 元 素 ， 一 般 根据 每 个 单词 的 重要 性 来 赋予 相应 的 权重 。 通 常 ， 数 据 集 (或 语 料 
E) 中 一 个 单词 的 重要 性 与 它 在 文档 中 出 现 的 次 数 成 正比 ， 而 与 它 在 语料库 中 出 现 
的 次 数 成 反比 。 











最 常用 的 权重 是 tf-idf (term frequency-inverse document frequency， 词 频 - 逆 癌 文 
档 频率 )， 单 词 w 在 文档 d 中 的 词 频 是 : 


tf, a = Mw 


27 
n, 是 单词 w 在 文档 4 中 出 现 的 次 数 。 为 了 归 一 化 ， 将 nn, 除 以 整个 文档 中 单词 的 总 数 。 
拷问 文档 频率 为 : 





\(D)| 
eae edy 





idf,.a = 


四 是 在 语料库 九 中 文档 的 数目 ， 分 母 是 语料库 中 包含 单词 w 的 文档 数 g。 将 两 者 
相 乘 可 以 得 到 矢量 "中 对 应 元 素 的 tf-idf 权重 。 关 于 tf-idf， 详 见 http://en.wikipedia. 
org/wiki/Tf-idf, 


PAMER] Bn Be EY AA, FR POR LE BB EEE A A Do FB 
“ae PA 2 HY FL BR as 5 HS HE 


7.2 视觉 音 词 

为 了 将 文本 挖掘 技术 应 用 到 图 像 中 ， 我 们 首先 需要 建立 视觉 等 效 单词 ;这 通 销 可 以 
采用 2.2 市 中 介绍 的 SIFT 局 部 摘 述 子 做 到 。 它 的 思想 是 将 描述 子 空 间 量 化 成 一 些 典 
型 实例 ， 并 将 图 像 中 的 每 个 描述 子 指 派 到 其 中 的 某 个 实例 中 。 这 些 典 型 实例 可 以 通 
过 分 析 训 练 图 像 集 确定 ， 并 被 视 为 视觉 单词 。 所 有 这 些 视 觉 单词 构成 的 集合 称 为 视 
觉 词 汇 ， 有 时 也 称 为 视觉 码 本 。 对 于 给 定 的 问题 、 图 像 类 型 ， 或 在 通常 情况 下 仅 需 
呈现 视觉 内 容 ， 可 以 创建 特定 的 词汇 。 


从 一 个 (很 大 的 训练 图 像 ， 集 提取 特征 描述 子 ， 利 用 一 些 聚 类 算法 可 以 构建 出 视觉 
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单词 。 聚 类 算法 中 最 常用 的 是 K-means ， 这 里 也 将 采用 K-means。 视 觉 单词 并 不 高 
端 ， 只 是 在 给 定 特 征 拉 述 子 空 间 中 的 一 组 癌 量 集 ， 在 采用 K-means 进行 谷类 时 得 到 的 
视觉 单词 是 聚 类 质心 。 用 视觉 单 词 直方 图 来 表示 图 像 ， 则 该 模型 便 称 为 BOW 模型 。 


我 们 首先 介绍 一 个 示例 数据 集 ， 并 利用 它 来 说 明 BOW 概念 。 文 件 first1000.zip 包 
含 了 有 肯塔基 大 学 物体 识别 数据 集 (或 称 “ukbench”) 的 前 1000 幅 图 像 。 完 整 的 数 
据 集 、 公 布 的 基准 和 一 些 配 套 代 码 参 见 http://www.vis.uky.edu/~stewe/ukbench/。 访 
ukbench 数据 集 有 很 多 子 集 ， 每 个 子 集 包 含 四 幅 图 像 ， 这 四 幅 图 像 具 有 相同 的 场景 
或 物体 ， 而 且 存 储 的 文件 名 是 连续 的 ， 即 0 . . . 3 属于 同一 图 像 子 集 ，4 . . .7 属于 另 
外 同一 图 像 子 集 ， 以 此 类 推 。 图 7-1 展示 了 数据 集中 的 一 些 图 像 ， 附 录 B.4 给 出 了 
该 数据 集 的 细 十 以 及 获取 方法 。 

















7-1; ukbench (肯塔基 大 学 物体 识别 数据 集 ) 数据 集中 的 一 些 图 像 


注 1: 或 在 更 加 高 级 的 场合 下 使 用 层次 K-means。 
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创建 词汇 

为 创建 视 贫 单词 词汇 ， 首 和 驳 需 要 担 取 特 征 描述 子 。 这 里 ， 我 们 使 用 SIFT 特征 描述 
子 。 如 前 面 一 样 ，imlist 包含 的 古 图 像 的 文件 名 。 运 行 下 面 的 代码 ， 可 以 得 到 每 幅 
图 像 提 取出 的 描述 子 ， 并 将 每 幅 图 像 的 描述 子 保存 在 一 个 文件 中 : 


nbr images = len(imlist) 
featlist = | imlist[i][:-3]+'sift' for i in range(nbr_images) | 


for i in range(nbr_ images): 
sift.process image(imlist[i],featlist[i]) 


创建 名 为 vocabulary.py 的 文件 ， 将 下 面 代码 添加 进去 。 该 代码 创建 一 个 词汇 类 ， 以 
及 在 训练 图 像 数 据 集 上 训练 出 一 个 词汇 的 方法 : 


from scipy.cluster.vq import * 
import vlfeat as sift 


class Vocabulary(object) : 


def init (self,name): 
self.name = name 
self.voc = |] 
self.idf = [] 
self.trainingdata = [] 
self.nbr words = 0 
def train(self, featurefiles,k=100, subsampling=10): 
"用 含有 K 个 单词 的 K-means 列 出 在 featurefiles 中 的 特征 文件 训练 出 一 个 词汇 。 对 训练 数据 下 
采样 可 以 加 快 训练 速度 """ 


nbr images = len(featurefiles) 

# 从 文件 中 读 取 特征 

descr = |] 

descr.append(sift.read features from file(featurefiles[0])[1]) 

descriptors = descr[0] # 将 所 有 的 特征 并 在 一 起 ， 以 便 后 面 进行 K-means RX 

for i in arange(1,nbr images ) : 
descr.append(sift.read features from file(featurefiles[i])[1]) 





descriptors = vstack((descriptors,descr[i])) 


# K-means: 最 后 一 个 参数 决定 运行 次 数 
self.voc,distortion = kmeans(descriptors|[::subsampling,:|,k,1) 
self.nbr words = self.voc.shape[0] 


# 遍历 所 有 的 训练 图 像 ， 并 投影 到 词汇 上 


imwords = zeros((nbr_images,self.nbr words) ) 
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for i in range( nbr images ): 
imwords[i] = self.project(descr[i]) 


nbr occurences = sum( (imwords > 0)*1 ,axis=0) 


self.idf = log( (1.0*nbr_ images) / (1.0*nbr occurences+1) ) 
self.trainingdata = featurefiles 

def project(self,descriptors): 
O 将 描述 子 投影 到 词汇 上 ， 以 创建 单词 直方 图 """ 


# 图 像 单词 直方 图 

imhist = zeros((self.nbr words)) 
words,distance = vq(descriptors,self.voc) 
for w in words: 


上 > 


imhist[w] += 


return imhist 





Vocabulary 类 包含 了 一 个 由 单词 聚 类 中 心 VOC 与 每 个 单词 对 应 的 逆 同 文档 频率 构成 
的 问 量 ， 为 了 在 某 些 图 像 集 上 训练 词汇 ，train() 方法 获取 包含 有 .sift 描 后 级 的 述 
子 文 件 列 表 和 词汇 单词 数 k。 Æ K-means 聚 类 阶段 可 以 对 训练 数据 下 采样 ， 因 为 如 
果 使 用 过 多 特征 ， 会 耗费 很 长 时 间 。 

现在 在 你 计算 机 的 某 个 文件 夹 中 ,保存 了 图 像 及 提取 出 来 的 sift 特征 文件 ， 下 面 的 
代码 会 创建 一 个 长 为 k= 1000 的 词汇 表 。 这 里 ， 再 次 假设 imlist 征 一 个 包含 了 图 
像 文 件 名 的 列表 : 





import pickle 
import vocabulary 


nbr_images = len(imlist) 
featlist = | imlist[i][:-3]+'sift' for i in range(nbr_ images) | 


voc = vocabulary.Vocabulary('ukbenchtest' ) 
voc.train(featlist,1000, 10) 


# 保存 词汇 

with open('vocabulary.pkl', 'wb') as f: 
pickle.dump(voc, f) 

print ‘vocabulary is:', voc.name, voc.nbr words 


代码 最 后 部 分 用 pickle 模块 保存 了 整个 词汇 对 象 以 便 后 面 使 用 。 
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7.3 图像 索 引 


在 开始 搜索 之 前 ， 我 们 需要 建立 图 像 数 据 库 和 图 像 的 视觉 单词 表示 。 





7.3.1 建立 数据 库 

在 索引 图 像 前 ， 我 们 需要 建立 一 个 数据 库 。 这 里 ， 对 图 像 进行 索引 就 是 从 这 些 图 像 中 
提取 摘 述 子 ， 利 用 词汇 将 摘 述 子 转换 成 视觉 单词 ， 并 保存 视觉 单词 及 对 应 网 像 的 单词 
直方 图 。 从 而 可 以 利用 图 像 对 数据 库 进 行 查询 ， 并 返回 相似 的 图 像 作为 搜索 结果 。 


这 里 ， 我 们 使 用 SQLite 作为 数据 库 。SQLite 将 所 有 信息 都 保存 到 一 个 文件 ， 是 
一 个 易于 安 痊 和 使 用 的 数据 库 。 由 于 不 涉及 数据 库 和 服务 如 的 配置 及 其 他 超出 本 
书 范围 的 细节 ， 它 很 容易 上 手 。SQLite 对 应 的 Python 版 本 是 pysqlite， 可 以 从 
http://code.google.com/p/pysqlite/ 获取 ， 或 在 Mac 和 Linux 系统 中 通过 软件 源 获 取 。 
SQLite 使 用 SQL 查询 语言 ， 所 以 如 果 想 用 别 的 数据 库 ， 这 个 转换 过 程 非常 简单 。 


在 开始 之 前 ， 我 们 需要 创建 表 、 索 引 和 索引 器 Indexer 类 ， 以 便 将 图 像 数 据 写 入 数 
据 库 。 首 先 ， 创 建 一 个 名 为 imagesearch.py 的 文件 ， 将 下 面 的 代码 添加 进去 : 








import pickle 
from pysqlite2 import dbapi2 as sqlite 


class Indexer(object): 


def init (self,db,voc): 
""" 初始 化 数据 库 的 名 称 及 词汇 对 象 “"， 


self.con = sqlite.connect (db) 
self.voc = voc 


def del (self): 
self.con.close() 


def db commit(self): 
self.con.commit() 


首先 ， 我 们 需要 用 pickle 模块 将 这 些 数 组 编码 成 字符 串 以 及 将 字符 串 进 行 解码 ， 
SQLite 可 以 从 pysqlite2 模块 中 导入 (安装 细 市 参见 附录 A). Indexer 类 连接 数据 
库 ， 并 且 一 旦 创建 (调用 init () 方 法 ) 后 就 可 以 保存 词汇 对 象 。_del () 方 法 
可 以 确保 关闭 数据 库 连 接 ，db commit() 可 以 将 更 改写 入 数据 库 文件 。 


我 们 仅 需 一 个 包含 三 个 表单 的 简单 数据 库 模 式 。 表 单 imlist 包含 所 有 要 索引 的 图 像 
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文件 名 ; imwords 包含 了 一 个 那些 单词 的 单词 索引 、 用 到 了 哪个 词汇 、 以 及 单词 出 现 
在 哪些 图 像 中 ;， Hela, imhistograms 包含 了 全 部 每 幅 图 像 的 单词 直方 图 。 根 据 矢 量 
空间 模型 ， 我 们 需要 这 些 以 便 进行 图 像 比 较 。 表 7-1 展示 了 该 模式 。 


表 7-1: 一 个 用 于 存储 图 像 及 视觉 单词 的 简单 数据 库 模式 





imlist imwords imhistograms 

rowid imid imid 

filename wordid histogram 
vocname vocname 


下 面 Indexer 类 中 的 方法 用 于 创建 表单 及 一 些 有 用 的 索引 以 加 快 搜索 速度 : 


def create tables(self): 
e 创建 数据 库 表单 


self.con.execute('create table imlist(filename)') 
self.con.execute('create table imwords(imid,wordid, vocname) ' ) 
self.con.execute('create table imhistograms(imid, histogram, vocname)' ) 
self.con.execute('create index im idx on imlist(filename) ') 
self.con.execute('create index wordid idx on imwords(wordid)' ) 
self.con.execute('create index imid idx on imwords(imid)' ) 
self.con.execute('create index imidhist idx on imhistograms(imid) ') 
self.db commit () 


7.3.2 ”添加 图 像 
有 了 数据 库 表 单 ， 我 们 便 可 以 在 索引 中 添加 图 像 。 为 了 实现 该 功能 ， 我 们 需要 在 
Indexer 类 中 添加 add to index() 方法 。 将 下 面 的 方法 添加 到 imagesearch.py H : 


def add to index(self,imname,descr): 


""" 获取 一 幅 带 有 特征 描述 子 的 图 像 ， 投 影 到 词汇 上 并 添加 进 数 据 库 """ 


if self.is indexed(imname): return 
print ‘indexing’, imname 


# 获取 图 像 id 


imid = self.get id(imname ) 


# 获取 单词 
imwords = self.voc.project(descr) 
nbr words = imwords.shape|0| 


# 将 每 个 单词 与 图 像 链接 起 来 


for i in range(nbr words): 
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word = imwords[i] 
# wordid 就 是 单词 本 身 的 数字 


self.con.execute("insert into imwords(imid,wordid, vocname) 





values (?,?,?)", (imid,word,self.voc.name) ) 


# 存储 图 像 的 单词 直方 图 

# 用 pickle 模块 将 NumPy 数组 编码 成 字符 串 

self.con.execute("insert into imhistograms(imid, histogram, vocname) 
values (?,?,?)", (imid, pickle. dumps(imwords),self.voc.name) ) 


该 方法 获取 图 像 文 件 名 与 Numpy 数组 ， 该 数组 包含 的 是 在 图 像 找 到 的 摘 述 子 。 这 些 
摘 述 子 投影 到 词汇 上 ， 并 插入 到 imwords (F) 和 imhistograms 表单 中 。 我 们 使 用 
两 个 辅助 国 数 : is_indxed() 用 来 检查 图 像 是 否 已 经 被 索 3|，get _id() 则 对 一 幅 图 像 
文件 名 给 定 id 号 。 将 下 面 的 代码 添加 进 imagesearch.py: 


def is indexed(self,imname): 


""" 如 果 图 像 名 字 (imame) 被 索引 到 ， 就 返回 True""" 


im = self.con.execute("select rowid from imlist where 
filename='%s'" % imname).fetchone() 
return im != None 


def get_id(self,imname): 
e" 获取 图 像 4， 如果 不 存在 ， 就 进行 添加 """ 


cur = self.con.execute( 
"select rowid from imlist where filename='%s'" % imname) 
res=cur. fetchone() 
if res==None: 
cur = self.con.execute( 
"insert into imlist(filename) values ('%s')" % imname) 
return cur.lastrowid 
else: 
return res[0| 


你 是 否 广 意 到 我 们 在 add_to_index() 方法 中 用 到 了 Pickle 模块 ”由 于 SQLite 的 数据 
库 在 存储 对 象 或 数组 时 并 没有 一 个 标准 类 型 。 所 以 ， 我 们 用 Pickle 的 dumps() 函数 
创建 一 个 字符 串 表 示 ， 并 将 其 写 入 数据 库 。 因 此 ， 从 数据 库 读 取 数 据 时 ， 我 们 需 
拆 封 该 字符 串 ， 这 在 下 一 节 有 详细 介绍 。 


下 面 的 示例 代码 会 志 历 整个 ukbench 数据 库 中 的 样本 图 像 ， 并 将 其 加 入 我 们 的 索 
引 。 这 里 ， 假 设 列 表 imlist 和 featlist 分 别 包 含 之 前 图 像 文 件 名 及 图 像 摘 述 子 ， 
vocabulary.pkl 包含 已 经 训练 好 的 词汇 : 








| 人 大 大 
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import pickle 
import sift 
import imagesearch 


nbr_images = len(imlist) 


# 载 入 词汇 
with open('vocabulary.pkl', 'rb') as f: 
voc = pickle.load(f) 


# GSR S| ae 
indx = imagesearch. Indexer('test.db', voc) 
indx.create tables() 


E i DET Ae, KAHER BIL EFAS 0B 5 |p 

for i in range(nbr_images)[:1000]: 
locs,descr = sift.read features from file(featlist[i]) 
indx.add_to_index(imlist[i],descr) 


# 提交 到 数据 库 


indx.db_commit() 


现在 我 们 可 以 检查 数据 库 中 的 内 容 了 : 


from pysqlite2 import dbapi2 as sqlite 

con = sqlite.connect('test.db' ) 

print con.execute('select count (filename) from imlist').fetchone() 
print con.execute('select * from imlist').fetchone() 


控制 人 台 打 印 结 采 如 下 : 


(1000, ) 
(u'ukbenchooooo. jpg", ) 


如 果 你 在 最 后 一 行 用 fetchall() ÆR fetchone()， 会 得 到 一 个 包含 所 有 文件 名 的 
长 列表 。 


7.4 在 数据 库 中 搜索 图 像 


建立 好 图 像 的 索引 ， 我 们 就 可 以 在 数据 库 中 搜索 相似 的 图 像 了 。 这 里 ， 我 们 用 Bow 
(Bag-of Word， 词 袋 模型 ) 来 表示 整个 图 像 ， 不 过 这 里 介绍 的 过 程 是 通用 的 ， 可 以 应 用 
于 寻找 相似 的 物体 、 相 似 的 脸 、 相 似 的 颜色 等 ， 它 完全 取决 于 图 像 及 所 用 的 描述 子 。 


为 实现 搜索 ， 我 们 在 imagesearch.py 中 添加 Searcher #: 
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class Searcher(object): 


def init (self,db,voc): 
""" 初始 化 数据 库 的 名 称 """ 
self.con = sqlite.connect (db) 
self.voc = voc 


def del (self): 
self.con.close() 


一 个 新 的 Searcher 对 象 连 接 到 数据 库 ， 一 旦 删除 便 关 闭 连 接 ， 这 与 之 前 的 Indexer 
类 中 的 处 理 过 程 相 同 。 


如 果 图 像 数 据 库 很 大 ， 逐 一 比较 整个 数据 库 中 的 所 有 直方 图 往往 是 不 可 行 的 。 我 们 
需要 找到 一 个 大 小 合理 的 候选 集 (这 里 的 “合理 ”是 通过 搜索 响应 时 间 、 所 需 内 存 
等 确定 的 ) ， 单 词 索引 的 作用 便 在 于 此 : 我 们 可 以 利用 单词 索引 获得 候选 集 ， 然 后 只 
需 在 候选 集 上 进行 逐一 比较 。 


7.4.1 利用 索引 获取 候选 图 像 
我 们 可 以 利用 建立 起 来 的 索引 找到 包含 特定 单词 的 所 有 图 像 ， 这 不 过 是 对 数据 库 做 
一 次 简单 的 查询 。 在 Searcher 类 中 加 入 candidates from word() 方法 : 


def candidates from word(self,imword): 


e G 获取 包含 imword 的 图 像 列 表 """ 


im ids = self.con.execute( 
"select distinct imid from imwords where wordid=%d" % imword).fetchall() 

return [i[0] for i in im ids] 
上 面 会 给 出 包含 特定 单词 的 所 有 图 像 id 号。 为 了 获得 包含 多 个 单词 的 候选 图 像 ， 例 
如 一 个 单词 直方 图 中 的 全 部 非 零 元 素 ， 我 们 在 每 个 单词 上 进行 过 历 ， 得 到 包含 该 单 
词 的 图 像 ， 并 合并 这 些 列表 。 这 里 ， 我 们 仍然 需要 在 合并 了 的 列表 中 对 每 一 个 图 像 
id 出 现 的 次 数 进行 跟踪 ， 因 为 这 可 以 显示 有 多 少 单词 与 单词 直方 图 中 的 单词 匹配 。 
该 过 程 可 以 通过 下 面 的 candidates from histogram 方法 完成 : 





def candidates from histogram(self, imwords): 


ee 获取 具有 相似 单词 的 图 像 列表 """ 


# 获取 单词 id 


words = imwords.nonzero()[0| 


注 1， 如果 不 想 使 用 所 有 单词 ， 你 可 以 根据 其 倒 排 文档 频率 权重 进行 排序 ， 并 使 用 那些 权重 最 高 的 单词 。 





Ar 


168 | 第 7 章 


# 寻找 候选 图 像 

candidates = [| 

for word in words: 
c = self.candidates from word(word) 
candidates+=c 


# 获取 所 有 唯一 的 单词 ， 并 按 出 现 次 数 反 回 排 序 

tmp = [(w,candidates.count(w)) for w in set(candidates) | 
tmp.sort(cmp=lambda x,y:cmp(x[1],y[1])) 

tmp.reverse() 





# 返回 排序 后 的 列表 ， 最 匹配 的 排 在 最 前 面 


return [w[0] for w in tmp] 


AEM ARE el BO SE ES ll SE id 列表 ， 检 索 每 个 单词 获得 候选 集 并 将 
其 合并 到 candidates 列表 中 ， 然 后 创建 一 个 元 组 列表 每 个 元 组 由 单词 id 和 次 数 count 
构成 ， 基 中 次 数 count 是 候选 列表 中 每 个 单词 出 现 的 次 数 。 同 时 ， 我 们 还 以 元 组 中 的 
第 二 个 元 素 为 准 ， 用 sort() 方法 和 一 个 自 定义 的 比较 函数 对 列表 进行 排序 〈 考 虑 到 后 
面 的 效率 )。 该 自 定义 比较 函数 进行 用 lambda 函数 内 联 声明 ， 对 于 单行 函数 声明 ， 使 
用 lambda 函数 非常 方便 。 最 后 结果 返回 一 个 包含 图 像 id 的 列表 ， 排 在 列表 最 前 面 的 
是 最 好 的 匹配 图 像 。 


思 芳 下 面 的 例子 : 








src = imagesearch.Searcher('test.db', voc) 
locs,descr = sift.read features from file(featlist[0o]) 
iw = voc.project (descr) 


print ‘ask using a histogram...’ 
print src.candidates from histogram(iw)[:10] 


该 例 打 印 了 从 索引 中 查找 出 的 前 10 AE id, RUT (该 结 末 根 据 你 使 用 的 词 
汇 有 上 所 不 同 ) : 


ask using a histogram... 
[6555 6565.0545.-44) 95.6535 AZ, Ass Aly 12 


查找 出 来 的 前 10 MRE ARR ABE A EE. PHAD, REER i I A 
(ERICH IR ENN EAE. MASAFI, AT AK Te ei as OE 


7.4.2 用 一 幅 图 像 进行 查询 


利用 一 幅 图 像 进行 查询 时 ， 没 有 必要 进行 完全 的 搜索 。 为 了 比较 单词 直方 图 ，Searcher 
类 需要 从 数据 库 读 入 图 像 的 单词 直方 图 。 将 下 面 的 方法 添加 到 Searcher 类 中 : 
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def get imhistogram(self,imname): 


“返回 一 幅 图 像 的 单词 直方 图 """ 


im id = self.con.execute( 
"select rowid from imlist where filename='%s'" 
s = self.con.execute( 


% imname).fetchone() 


"select histogram from imhistograms where rowid='%d'" % im id).fetchone() 


# 用 pickle 模块 从 字符 串 解码 Numpy 数组 
return pickle.loads(str(s[0])) 


这 里 ， 为 了 在 字符 串 和 NumPy 数组 间 进 行 转换 ， 我 们 再 次 用 到 了 pickle 模块 ， 这 次 


使 用 的 是 1oads()。 
现在 ， 我 们 可 以 全 部 合并 到 查询 方法 中 : 


def query(self,imname): 


"查找 所 有 与 imname 匹配 的 图 像 列表 """ 


h = self.get imhistogram(imname) 
candidates = self.candidates from histogram(h) 


matchscores = |] 
for imid in candidates: 
# 获取 名 字 


cand name = self.con.execute( 


"select filename from imlist where rowid=%d" % imid).fetchone() 


cand h = self.get_imhistogram(cand_name) 


cand dist = sqrt( sum(self.voc.idf* (h-cand h)2 ) ) # 用 L2 距离 度量 相似 性 


matchscores.append( (cand dist,imid) ) 


# 返回 排序 后 的 距离 及 对 应 数据 库 ids 列表 
matchscores.sort() 
return matchscores 


该 query() 方法 獒 取 图 像 的 文件 名 ， 检 索 其 单词 直方 图 及 候选 图 像 列 表 (如 末 你 的 


数据 集 很 大 ， 候 选集 的 大 小 应 该 限制 在 某 个 最 大 值 )。 
准 的 欧式 距离 比较 它 和 查询 图 像 间 的 直方 图 ， 并 返 
id 的 元 组 列表 。 


我 们 尝试 对 前 一 廊 的 图 像 进 行 查询 : 
src = imagesearch.Searcher('test.db', voc) 


print ‘try a query... ' 
print src.query(imlist[o])[:10] 


对 于 每 个 候选 图 像 ， 我 们 用 标 
回 一 个 经 排序 的 包含 距离 及 图 像 
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这 会 再 次 打印 前 10 个 结果 ， 包 括 候 选 图像 与 查询 图 像 旧 的 距离 ， 结 果 应 该 和 下 面 
类 似 ， 

ELV as Query sc 

[(0.0, 1), (100.03999200319841, 2), (105.45141061171255, 3), (129.47200469599596, 708), 


(129.73819792181484, 707), (132.68006632497588, 4), (139.89639023220005, 10), 
(142.31654858097141, 706), (148.1924424523734, 716), (148.22955170950223, 663) | 


这 次 结 来 比 前 一 市 中 打印 出 来 的 10 个 结 东 要 好 很 多 。 距 离 为 0 的 图 像 对 应 查询 图 像 
A; 三 幅 与 得 询 图 像 具 有 相同 场景 的 图 像 有 两 幅 在 除 碍 询 图 像 本 遇 外 的 前 两 个 位 
置 ， 第 三 幅 则 出 现在 第 五 个 位 置 。 


7.4.3 ”确定 对 比 基 准 并 绘制 结果 

为 了 评价 搜索 结果 的 好 坏 ， 我 们 可 以 计算 前 4 个 位 置 中 搜索 到 相似 图 像 数 。 这 是 在 
ukbench 图 像 集 上 评价 搜索 性 能 常 采用 的 评价 方式 。 这 里 给 出 了 计算 分 数 的 函数 ， 
将 它 添加 到 imagesearch.py 中 ， 你 就 可 以 开始 优化 查询 了 : 


def compute _ukbench score(src,imlist): 


""" 对 查询 返回 的 前 4 个 结 末 计算 平均 相似 图 像 数 ， 并 返回 结 来 "”" 





nbr_images = len(imlist) 

pos = zeros((nbr_images, 4) ) 

# 获取 每 幅 查 询 图 像 的 前 4 PERS 
for i in range(nbr_images): 





pos[i] = [w[1]-1 for w in src.query(imlist[i])[:4]] 


# 计算 分 数 ， 并 返回 平均 分 数 
score = array([ (pos[i]//4)==(i//4) for i in range(nbr images)|)*1.0 
return sum(score) / (nbr images) 


ABBR TAR RAI A 4 PEAS, FE query 返回 的 索 ?| 减 去 1， 因 为 数据 库 索 引 征 从 
1 开始 的 ， 而 图 像 列表 的 索引 | 古 从 0 开始 的 。 然 后 ， 利 用 每 4 幅 图 像 为 一 组 时 相似 
图 像 文 件 名 是 连续 的 这 一 事实 ， 我们 用 整数 相 除 计算 得 到 最 终 的 分 数 。 分 数 为 4 时 
结 末了 好 理想 ， 没 有 一 个 是 准确 的 ,分 数 为 0; 仅 检索 到 相同 图 像 时 ， 分 数 为 1， 找到 
相同 的 图 像 并 且 其 他 三 个 中 的 两 个 相同 时 ， 分数 为 3。 


试 试 下面 的 代码 : 
imagesearch.compute_ukbench score(src, imlist) 


进行 1000 次 查询 需要 耗费 较 长 时 间 ， 如 琳 你 不 想 等 太 和 信 ， 可 以 将 查询 集 改 为 上 面 查 
WRITE: 
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imagesearch.compute_ukbench_ score(src, imlist[:100] ) 


当 得 到 的 分 数 接近 3 时， 我 们 可 以 认为 结 采 很 好 。 目 前 ，ukbench 网 站 给 出 的 最 好 
结 未 刚刚 超过 3， 不 过 需要 注意 的 征 ， 他 们 用 了 更 多 的 图 像 ， 所 以 在 大 数据 集 上 ， 
你 在 上 面 所 得 到 的 分 数 会 下 降 。 


最 后 ， 用 于 显示 实际 搜索 结果 的 函数 十 分 有 有用。 添加 该 函数 到 imagesearch.py 中 : 





def plot results(src,res): 


nun 显示 在 列表 res 中 的 图 像 """ 


figure() 

nbr results = len(res) 

for i in range(nbr results): 
imname = src.get_filename(res[i]) 
subplot(1,nbr_results,i+1) 
imshow(array (Image.open(imname) ) ) 
axis('off') 

show( ) 


对 于 列表 res PIER RAE, ATA Awe. AFAT : 


nbr results = 6 
res = [w[1] for w in src.query(imlist[0])[:nbr results ] |] 
imagesearch.plot_results(src, res) 


定义 辅助 函数 : 


def get filename(self,imid): 
""" 返回 图 像 id 对 应 的 文件 名 """ 


s = self.con.execute( 
"select filename from imlist where rowid='%d'" % imid).fetchone() 
return s[0| 


它 可 以 将 图 像 的 id 转换 为 图 像 文 件 名 ， 以 便 在 显示 搜索 结 朱 时 载 入 图像。 图 7-2 显 
示 了 用 plot_results() 在 我 们 的 数据 集 上 进行 的 一 些 查询 实例 。 


7.5 ”使 用 几何 特性 对 结果 排序 


让 我 们 简要 地 看 一 种 用 Bow $e AY Oc WER RE AY Hh ATK. Bow 模型 的 一 个 主要 
缺点 是 在 用 视觉 单词 表示 图 像 时 不 包含 图 像 特征 的 位 置信 息 ， 这 是 为 获取 速度 和 可 
伸缩 性 而 付出 的 代价 。 
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7-2: 在 ukbench 数据 集 上 用 一 些 查 询 图 像 进行 搜索 给 出 的 一 些 结果 。 查 询 图 像 在 最 左边 ， 
后 面 是 检索 到 的 前 5 幅 图 像 


利用 一 些 考 虑 到 特征 几何 关系 的 准则 重 排 搜索 到 的 笔 前 结 永 ， 可 以 捉 高 准确 率 。 了 节 
前 用 的 方法 站 在 碍 询 图 像 与 靠 前 图 像 的 特征 位 置 间 拟 合 单 应 性 。 

为 了 提高 效率 ， 可 以 将 特征 位 置 存 储 在 数据 库 中 ， 并 由 特征 的 单词 id 决定 它们 之 间 
的 关联 (要 注意 的 是 ， 只 有 在 词汇 足够 大 ， 使 单词 id 包含 很 多 准确 匹配 时 ， 它 才 起 
作用 )。 然 而 ， 这 需要 大 幅 重 写 我 们 上 和 面 的 数据 库 和 代码 ， 并 复杂 化 表示 形式 。 为 了 
进行 说 明 ， 我 们 仅 重 载 乱 前 图 像 的 特征 ， 并 对 它们 进行 匹配 。 


下 面 是 一 个 载 入 所 有 模型 文件 并 用 单 应 性 对 靠 前 的 图 像 进 行 重 排 的 完整 例子 : 





import pickle 
import sift 

import imagesearch 
import homography 


# 载 人 图 像 列 表 和 词汇 
with open('ukbench_ imlist.pkl','rb') as f: 
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imlist = pickle.load(f) 
featlist = pickle. load(f) 


nbr_images = len(imlist) 
with open('vocabulary.pkl', 'rb') as f: 


voc = pickle. load(f) 


src = imagesearch.Searcher('test.db' ,voc) 





# EWER |S AT I) ER a AB 
q_ind = 50 
nbr_ results = 20 


# MAW 
res reg = [w[1] for w in src.query(imlist[q indj)[:nbr results] |] 
print “top matches (regular):', res reg 


# 载 入 碍 询 图 像 特 征 
g_locs,q_descr = sift.read features from file(featlist|q_ind]) 
fp = homography.make_homog(q_locs[:,:2].T) 


# 用 RANSAC 模型 拟 合 单 应 性 
model = homography.RansacModel() 


rank = {} 
# 载 和 人 搜索 结 采 的 图 像 特征 
for ndx in res reg[1:]: 
locs,descr = sift.read features from file(featlist[ndx]) 


# 获取 匹配 数 

matches = sift.match(q descr,descr) 

ind = matches.nonzero()[0] 

ind2 = matches| ind] 

tp = homography.make_homog(locs[:,:2].T) 


# 计算 单 应 性 ， 对 内 点 计数 。 如 采 没 有 足够 的 匹配 数 则 返回 空 列 表 
try: 


H,inliers = homography.H from ransac(fp[:,ind],tp[:,ind2],model,match theshold=4) 


except: 
inliers = [] 


# 存储 内 点 数 


rank[ndx] = len(inliers) 








# 将 字典 排序 ， 以 首先 获取 最 内 层 的 内 点 数 

sorted rank = sorted(rank.items(), key=lambda t: t[1], reverse=True) 
res geom = [res reg[O]]+[s[0] for s in sorted rank] 

print ‘top matches (homography):', res geom 


# 显示 徘 前 的 搜索 结果 
imagesearch.plot results(src,res Teg[ :8]) 
imagesearch.plot results(src,res geom[:8]) 


首先 ， 载 入 图 像 列 表 、 特 征 列 表 〈 分 别 包 含 图 像 文件 名 和 SIFT 特征 文件 ) 及 词汇 。 
然后 ， 创 建 一 个 Searcher 对 象 ， 执 行 定 期 查询 ， 并 将 结 末 保存 在 res reg 列表 中 。 然 
后 载 入 res_ reg 列表 中 每 一 幅 图 像 的 特征 ， 并 和 查询 图 像 进行 匹配 。 单 应 性 通过 计算 
匹配 数 和 计数 内 点 数 得 到 。 最 终 ， 我 们 可 以 通过 减少 内 点 的 数 日 对 包含 图 像 索 引 和 内 
点 数 的 字典 进行 排序 。 打 印 搜索 结果 列表 到 控制 台 ， 并 可 视 化 检索 徘 前 的 图 像 。 


输出 结果 如 下 : 


top matches (regular): [39, 22, 74, 82, 50, 37, 38, 17, 29, 68, 52, 91, 15, 90, 31, ... | 
top matches (homography): [39, 38, 37, 45, 67, 68, 74, 82, 15, 17, 50, 52, 85, 22, 87, ... | 


图 7-3 25H T LAS Vea AT is ad ST HAE i I EEE BER o 











7-3: 基 于 几何 一 致 性 用 单 应 性 对 搜索 结果 进行 重 排 后 一 些 实例 搜索 结果 。 在 每 一 个 例子 中 ， 
上 一 行 是 没有 剃 规 查 询 的 结果 ， 下 一 行 是 重 排 后 的 结果 





图 像 搜 索 | 175 


7.6 ”建立 演示 程序 及 Web 应 用 


作为 本 革 关 于 图 像 搜 索 的 最 后 一 三 ， 我 们 看 一 个 用 Python 建立 演示 程序 和 Web 应 
用 的 简单 方法 。 通 过 将 演示 程序 变 成 Web 页 ， 你 便 自 动 获 得 了 跨 平 台 支 持 ， 并 以 
最 低 环 境 配置 需求 展示 、 分 享 你 项 目 。 我 们 在 本 菠 会 完整 给 出 一 个 创建 简单 图 像 搜 
索引 擎 的 示例 。 


7.6.1 用 CherryPy 创 建 Web 应 用 


为 了 建立 这 些 演 示 程 序 ， 我 们 将 采用 CherryPy 包 ， 参 见 http://www.cherrypy.org。 
CherryPy 是 一 个 纯 Python 轻 量 级 Web Ak as, TEH EAX Be fe BY. CherryPy 的 
安装 和 配置 细 市 参见 附录 A。 这 里 假设 你 已 经 学 习 了 CherryPy 实例 教程 ， 并 对 
CherryPy 的 工作 方式 有 了 初步 的 了 解 ， 我 们 可 以 以 本 章 创 建 的 图 像 Searcher 类 为 基 
础 ， 来 创建 一 个 图 像 搜 索 Web 演示 程序 。 





7.6.2 图像 搜索 演示 程序 

首先 ， 我 们 需要 用 一 些 HTML 标签 进行 初始 化 ， 并 用 Pickle 载 和 人 数据 。 另 外， 还 需 
要 有 与 数据 库 进 行 交 互 的 Searcher 对 象 词汇 。 创 建 一 个 名 为 searchdemo.py 的 文件 ， 
并 添加 下 面具 有 两 个 方法 的 Search Demo 类 : 








import cherrypy, os, urllib, pickle 
import imagesearch 


class SearchDemo(object) : 


def init (self): 
E 载 和 人 图像 列 表 
with open('webimlist.txt') as f: 
self.imlist = f.readlines() 


self.nbr_ images = len(self.imlist) 
self.ndx = range(self.nbr_images) 


# 载 入 词汇 
with open('vocabulary.pkl', 'rb') as f: 
self.voc = pickle. load(f) 


# 设置 可 以 显示 多 少 幅 图 像 


self.maxres = 15 


# html 的 头 部 和 尾部 





入 和 
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self.header = 
<!doctype html> 
<head> 
<title>Image search example</title> 
</head> 
<body> 


self.footer = 
</body> 
</html> 


def index(self,query=None): 
self.src = imagesearch.Searcher('web.db',self.voc) 


html = self.header 

html += """ 
<br /> 
Click an image to search. <a href='?query='>Random selection</a> of images. 
<br /><br /> 

if query: 

# 查询 数据 库 并 获取 靠 前 的 图 像 

res = self.src.query(query)|:self.maxres | 

for dist,ndx in res: 
imname = self.src.get_filename(ndx) 


html += "<a href=" ?query="+imname+" ' > 


html += "<img src='"+imname+"' width='100' />" 
html += "</a>" 
else: 
# 如 采 没 有 碍 询 图 像 ， 则 显示 随机 选择 的 图 像 
random. shuffle(self.ndx) 
for i in self.ndx|:self.maxres |: 
imname = self.imlist[i] 


html += "<a href=" ?query="+imname+" ' > 


html += "<img src='"+imname+"' width='100' />" 


html += "</a>" 


html += self.footer 
return html 


index.exposed = True 


cherrypy.quickstart(SearchDemo(), '/', 
config=os.path.join(os.path.dirname( file ), ‘service.cont')) 


你 可 以 看 到 ， 这 个 简单 的 演示 程序 包含 了 单个 类 ， 该 类 包含 一 个 初始 化 _int_() 方 
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法 和 一 个 “索引 ”页 面 index) 方法 (本 例 中 只 有 一 个 页 面 )。 这 两 个 方法 可 以 自动 
地 映射 至 URL， 并 且 方 法 中 的 参数 可 以 直接 传递 到 URL 中 。index 方法 里 有 一 个 查 
询 参数 ， 在 本 例 中 ， 该 参数 是 查询 图 像 ， 用 来 对 其 他 图 像 排序 。 如 采 该 参数 是 空 的 ， 
就 会 随机 显示 一 些 图 像 。 


index.exposed = True 


这 一 行使 索引 URL 可 以 被 访问 ， 上 面 searchsemo.py 中 紧 接 着 该 行 的 最 后 一 行 通 过 
读 取 service.conf 配置 文件 开启 CherryPy Web 服务 器 。 在 这 个 例子 中 ， 我 们 的 配置 
文件 如 下 : 


[global | 

server.socket_ host = "127.0.0.1" 
server.socket_ port = 8080 
server.thread pool = 50 
tools.sessions.on = True 


[/] 

tools.staticdir.root = "“tmp/" 
tools.staticdir.on = True 
tools.staticdir.dir = "" 





第 一 部 分 指定 使 用 的 IP 地 址 和 端口 ， 第 二 部 分 确保 本 地 文件 夹 可 以 读 取 〈 本 例 中 文 
件 夹 为 tmp/)， 注 意 文 件 夹 下 存放 的 是 你 的 图 像 库 。 








如 采 你 打算 将 它 展示 给 别人 看 ， 不 要 在 这 个 文件 夹 下 存放 任何 秘密 的 东西 ， 
a 因为 文件 夹 下 所 有 的 内 容 都 可 以 通过 CherryPy 访问 。 





从 命令 行 开 启 你 的 Web 服务 器 : 
$ python searchdemo.py 


打开 浏览 器 ， 在 地 址 栏 输入 http://127.0.0.1:8080/， 你 可 以 看 到 随机 挑选 出 来 的 图 像 
的 初始 页 面 ， 类 似 于 图 7-4 中 的 上 图 所 示 。 点 击 一 幅 图 像 进 行 查询 ， 会 显示 出 搜索 
出 来 的 前 儿 幅 图 像 ， 在 搜索 出 来 的 图 像 中 单 击 某 图 像 可 以 开始 新 的 查询 。 此 外 ， 页 
面 上 有 一 个 链接 ， 点 击 后 可 以 返回 原来 随机 选择 的 状态 (通过 一 个 空 查询 )。 图 7-4 


古 一 些 查 询 示 例 。 

该 例子 完整 展示 了 从 Web 页 面 到 数据 库 碍 询 以 及 结 东 显示 你 个 综合 过 程 。 当 然 ， 这 
只 是 一 个 基本 的 原型 ， 并 且 你 可 以 在 该 基础 上 进行 改进 ， 例 如 添加 样式 表 使 它 更 漂 
亮 ， 或 使 它 能 够 上 传 图 像 进行 查询 。 
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Image search example 


> 有 + wi http://localhost:8080/7query= © | (Q7 Google 





Click an image to search. Random selection of images. 





Image search example BOE Image search example 


a|» + í http://localhost:8080/7query=ukben © | (Q7 Google a> + «í http: //localhost:8080/?query=ukben: © | (Q7 Google 





Click an image to search. Random selection of images. Click an image to search. Random selection of images. 





图 7-4: 在 ukbench 数据 集 上 进行 搜索 的 示例 。 上 方 是 开始 页 面 ， 显 示 了 一 些 随机 选择 的 图 
Z: 下方 是 一 些 得 询 示例 。 左 上 角 是 查询 图 像 ， 书 后 的 是 搜索 到 的 一 些 结果 靠 前 的 图 像 


练习 


(1) 尝试 只 用 查询 图 像 中 的 部 分 单词 构建 候选 图 像 列 表 来 加 速 查询 ， 用 idf 权重 作为 
准则 来 挑选 单词 。 

(2) 在 你 的 词汇 中 ， 比 如 前 10%， 实 现 一 个 最 第 用 的 视 完 单词 停 用 词 列表 ， 在 搜索 
的 时 候 名 略 这 些 单词 ， 看 看 搜索 结果 有 何 改 善 ? 

(3) 通过 保存 所 有 了 映射 到 一 个 给 定单 词 id 的 所 有 图 像 特征 ， 对 视觉 单词 进行 可 视 化 。 
在 给 定 的 尺度 下 ， 在 特征 位 置 环绕 处 剪 切 图 像 块 ， 并 将 它们 画 在 同一 图 形 窗口 
中 。 对 于 给 定 的 单词 ， 这 些 图 像 块 看 起 来 一 样 吗 ? 

(4) 在 query() 方法 中 ， 用 不 同 的 距离 度量 及 加 权 进 行 实验 ， 用 compute ukbench_ 
score() 计算 得 出 的 分 数 度量 你 的 改进 是 否 有 效 。 

(5) 在 整个 章节 中 ， 我 们 的 词汇 仅 用 到 了 SIFT 特征 ， 正 如 你 在 图 7-2 中 看 到 的 结 
采 ， 它 完全 抛弃 了 颜色 信息 。 试 着 添加 颜色 描述 符 看 你 是 否 能 够 改进 搜索 的 
结 东 。 

(6) 对 于 大 量词 汇 ， 用 数组 来 表示 视 贫 单词 词 频 效率 很 低 ， 原 因 在 于 数组 中 很 多 元 素 
都 是 0〈 比 如 考虑 这 样 一 种 情形 ， 有 数 十 万 单词 ， 而 图 像 却 只 有 1000 个 特征 )。 
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一 种 殉 服 这 种 低 效 的 办 法 是 将 字典 作为 稀 踊 数组 表示 ， 用 目 定义 一 个 稀 玻 类 替代 
这 些 数组 ， 并 在 目 定 义 的 稀 距 类 中 添加 一 些 必 要 的 方法 。 或 作为 另 一 种 选择 ， 你 
可 以 采用 scipy.sparse 模块 。 

(7) 你 如 末 增 加 词汇 的 大 小 ， 聚 类 时 间 也 会 相应 增长 ， 并 且 特 征 投影 到 单词 的 过 程 更 
加 缓慢 。 用 层次 K-means 聚 类 算法 实现 一 个 层次 词汇 ， 看 它 是 怎样 提高 可 伸缩 
性 的 ， 详 情 参 阅 文献 [23]. 
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图 像 内 容 分 类 








本 半 介 绍 图 像 分 类 和 图 像 内 容 分 类 算法 。 首 和 完 ， 我 们 介绍 一 些 人 简单 而 有 效 的 方法 和 
目前 一 些 性 能 最 好 的 分 类 如 ， 并 运用 它们 解决 两 类 和 多 类 分 类 问题 ， 最 后 展示 两 个 
用 于 手势 识别 和 目标 识别 的 应 用 实例 。 


8.1 上 邻近 分 类 法 (KNN) 


在 分 类 方法 中 ， 最 简单 且 用 得 最 多 的 一 种 方法 之 一 就 是 KNN (K-Nearest Neighbor ,K 
邻近 分 类 法 )， 这 种 算法 把 要 分 类 的 对 象 〈 例 如 一 个 特征 向 量 ) 与 训练 集中 已 知 类 标 
记 的 所 有 对 象 进行 对 比 ， 并 由 近邻 对 指派 到 哪个 类 进行 投票 。 这 种 方法 通常 分 类 效 
有 果 较 好 ， 但 是 也 有 很 多 弊端 : 与 K-means 肾 类 算法 一 样 ， 需 要 预先 设 定 x 值 ，k 值 的 
选择 会 影响 分 类 的 性 能 ， 此 外 ， 这 种 方法 要 求 将 整个 训练 集 存储 起 来 ， 如 果 训 练 集 
非常 大 ， 搜 索 起 来 就 非常 慢 。 对 于 大 训练 集 ， 采 取 某 些 装 箱 形式 通常 会 减少 对 比 的 次 
数 ” 从 积极 的 一 面 来 看 ， 这 种 方法 在 采用 何 种 距离 度量 方面 是 没有 限制 的 ， 实 际 上 ， 
对 于 你 所 能 想到 的 东西 它 都 可 以 奏效 ， 但 这 并 不 意味 着 对 任何 东西 它 的 分 类 性 能 都 很 
好 。 另 外 ， 这 种 算法 的 可 并 行 性 也 很 一 般 。 

实现 最 基本 的 KNN 形式 非常 简单 。 给 定 训 练 样本 集 和 对 应 的 标记 列表 ， 下 面 的 代码 
可 以 用 来 完成 这 一 工作 。 这 些 训练 样本 和 标记 可 以 在 一 个 数组 里 成 行 摆 放 或 者 干脆 摆 
放 列 表 里 ， 训 练 样本 可 能 是 数字 、 字 符 串 等 任何 你 喜欢 的 形状 。 将 定义 的 类 对 象 添加 
到 名 为 knn.py 的 文件 里 : 


注 1: 另 一 个 选择 是 只 保留 从 训练 集 挑选 出 的 子 集 ， 但 这 会 影响 分 类 准确 率 。 
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class KnnClassifier(object): 


oe __init_ (self, labels aa 
"使 用 训练 数据 初始 化 分 类 器 " 


self.labels = labels 
self.samples = samples 


def classify(self, point, k=3): 
"在 训练 数据 上 采用 k 近邻 分 类 ， 并 返回 标记 """ 


# 计算 所 有 训练 数据 点 的 距离 
dist = array([L2dist(point,s) for s in self.samples]) 


# 对 它们 进行 排序 
ndx = dist.argsort() 


t 用 字典 存储 k 近邻 

votes = {} 

for i in range(k): 
label = self.labels|ndx[i] | 
votes.setdefault (label, 0) 
votes[ label] += 1 


return max(votes ) 


def L2dist(p1,p2): 
return sqrt( sum( (p1-p2)**2) ) 


定义 一 个 类 并 用 训练 数据 初始 化 非常 简单 ; 每 次 想 对 某 些 东西 进行 分 类 时 ， 用 KNN 
方法 ， 我 们 就 没有 必要 存储 并 将 训练 数据 作为 参数 来 传递 。 i 
标记 ， 我 们 便 可 以 用 文本 字符 是 或 数字 来 表示 标记 。 在 这 个 例子 中 ， 我 们 用 欧式 距 
A (L) 进行 度量 ， 当 然 ， 如 琳 你 有 其 他 的 度量 方式 ， 只 需要 将 其 作为 函数 添加 到 上 
面 代码 的 最 后 。 


8.1.1 一 个 简单 的 二 维 示例 
我 们 首 和 所 建立 一 坚 间 昔 的 一 维 示例 数据 集 来 况 明 并 可 视 化 分 TRAHI LIERE, FHAR 
脚本 将 创建 两 个 不 同 的 二 维 点 集 ， 每 个 点 集 有 两 类 ， 用 Pickle 模块 来 保存 创建 的 数据 : 





from numpy.random import randn 
import pickle 


# 创建 二 维 样本 数据 
n = 200 
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# 两 个 正 态 分 布 数 据 集 

class 1 = 0.6 * randn(n,2) 

class 2 =1.2 * randn(n,2)+ array([5,4]) 
labels = hstack((ones(n),-ones(n))) 


# 用 Pickle 模块 保存 

with open('points normal.pkl', 'w') as f: 
pickle.dump(class 1, f) 
pickle.dump(class 2, f) 
pickle.dump (labels, fF) 


# 正 态 分 布 ， 并 使 数据 成 环绕 状 分 布 

class 1 = 0.6 * randn(n,2) 

r= 0.8 * randn(n,1) +5 

angle = 2*pi * randn(n,1) 

class 2 = hstack((r*cos(angle),r*sin(angle) )) 
labels = hstack((ones(n),-ones(n))) 


# FA Pickle 保存 

with open('points ring.pkl', 'w') as f: 
pickle.dump(class 1, f) 
pickle.dump(class 2, f) 
pickle.dump (labels, fF) 


用 不 同 的 保存 文件 名 运行 该 脚本 两 次 ， 例 如 第 一 次 用 代码 中 的 文件 名 进行 保存 ， 第 
二 次 将 代码 中 的 points_normal_t.pkl 和 points_ring_pkl 分 别 改 为 points_normal_test. 
pkl 和 points_ring_test.pkl 进行 保存 。 你 将 得 到 4 个 二 维 数 据 集 文件 ， 每 个 分 布 都 有 
两 个 文件 ， 我 们 可 以 将 一 个 用 来 训练 ， 另 一 个 用 来 做 测试 。 


让 我 们 看 看 怎么 用 KNN 分 类 堪 来 完成 ， 用 下 面 的 代码 来 创建 一 个 脚本 : 


import pickle 
import knn 
import imtools 


# 用 Pickle 载 入 二 维 数据 后 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


model = knn.KnnClassifier(labels,vstack((class 1,class 2))) 





这 里 用 Pickle 模块 来 创建 一 个 kNN DRRR, EE Lm Baas PARAS : 





图 像 内 容 分 类 | 183 


# 用 Pickle 模块 载 入 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# 在 测试 数据 集 的 第 一 个 数据 点 上 进行 测试 
print model.classify(class 1[0]) 


上 面 代码 载 入 另 一 个 数据 集 (测试 数据 集 )， 并 在 你 的 控制 台 上 打印 第 一 个 数据 点 估 
计 出 来 的 类 标记 。 


为 了 可 视 化 所 有 测试 数据 点 的 分 类 ， 并 展示 分 类 如 将 两 个 不 同 的 类 分 开 得 怎样 ， 我 
们 可 以 添 加 这 些 代码 : 


# 定义 绘图 函数 
def classify(x,y,model=model): 
return array([model.classify([xx,yy]) for (xx,yy) in zip(x,y)]) 


# 绘制 分 类 边界 
imtools.plot 2D boundary([-6,6,-6,6],[class 1,class 2],classify,[1,-1]) 
show( ) 


这 里 我 们 创建 了 一 个 简短 的 辅助 函数 以 获取 x 和 ?了 二 维 坐标 数组 和 分 类 大 ， 并 返回 


一 个 预测 的 类 标记 数组 。 现 在 我 们 把 函数 作为 参数 传递 给 实际 的 绘图 函数 。 把 下 面 
的 函数 添加 到 文件 imtools 中 : 





def plot 2D boundary(plot range,points,decisionfcn,1abels,values=[01]): 
"""Plot range 为 (xmin, xmax, ymin, ymax), points 是 类 数据 点 列表 ， 
decisionfcn 是 评估 函数 ，labels 是 函数 decidionfcn 关于 每 个 类 返回 的 标记 列表 """ 








clist = ['b','r','g','k','m','y'] # 不 同 的 类 用 不 同 的 颜色 标识 


# 在 一 个 网 格 上 进行 评 佑 ， 并 画 出 决策 函数 的 边界 

x = arange(plot rangel0],plot range[1],.1) 

y = arange(plot_range[2],plot_range[3],.1) 

xx,yy = meshgrid(x,y) 

Xxx, yyy = xx.flatten(),yy.flatten() # 网 格 中 的 x, y 坐标 点 列表 
zz = array(decisionfcn(xxx, yyy) ) 

ZZ = zz.reshape(xx.shape) 

# 以 values 画 出 边界 

contour (xx, yy, ZZ, Values) 


# 对 于 每 类 ， 用 * 画 出 分 类 正确 的 点 ， 用 o 画 出 分 类 不 正确 的 点 


for i in range(len(points)): 
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d = decisionfcn(points[i][:,0],points[i][:,1]) 
correct ndx = labels[i]==d 
]!=d 


plot(points[i][correct_ndx,0],points[i][correct_ndx,1],'*',color=clist[i]) 


incorrect _ ndx = labels[i 
plot(points[i][incorrect_ndx,0],points[i][incorrect_ndx,1],'o',color=clist[i]) 
axis('equal') 


XAAR ARR (分 类 器 )， 并 且 用 meshgrid() 国 数 在 一 个 网 格 上 进行 预 
训 。 诀 策 国 数 的 等 值 线 可 以 显示 边界 的 位 置 ， 默 认 边 界 为 零 等 值 线 。 画 出 来 的 结果 如 
8-1 所 示 ， 正 如 你 所 看 到 的 ，KNN 决策 边界 适用 于 没有 任何 明确 模型 的 类 分 布 。 














图 8-1: AK 邻近 分 类 器 分 类 二 维 数据 。 每 个 示例 中 ， a EANNA 
用 星 号 表示 ， 分 类 锻 误 的 点 用 圆 点 表示 ， 曲 线 是 分 类 右 的 决策 边 


8.1.2 ”用 稠密 SIFT 作 为 图 像 特征 

我 们 来 看 如 何 对 图 像 进 行 分 类 。 要 对 图 像 进 行 分 类 ， 我 们 需要 一 个 特征 问 量 来 表示 
wee. 在 聚 类 一 章 我 们 用 平均 RGB 像素 值 和 PCA 系数 作为 图 像 的 特征 向 量 ， 
这 里 我 们 会 介绍 另外 一 种 表示 形式 ， 即 稠密 SIFT 特征 癌 量 。 


在 整 幅 图 像 上 用 一 个 规则 的 网 格 应 用 SIFT 描述 子 可 以 得 到 稠密 SIFT 的 表示 形式 "， 
我 们 可 以 利用 2.2 市 的 可 执行 脚本 ， 通 过 添加 一 些 额 外 的 参数 来 得 到 稠密 SIFT 特 
征 。 创 建 一 个 名 为 dsift.py 的 文件 ， 并 添加 下 面 代 码 到 该 文件 中 : 


import sift 


def process image dsift(imagename,resultname,size=20,steps=10, 
force orientation=False, resize=None): 





注 1: 男 一 个 常见 的 名 字 是 方向 梯度 直方 图 (HOG). 





图 像 内 容 分 类 | 185 


“" 用 密集 采样 的 SIFT 描述 子 处 理 一 幅 图 像 ， 并 将 结 末 保存 在 一 个 文件 中 。 可 选 的 输入 : 
特征 的 大 小 size， 位 置 之 间 的 步 长 steps， 和 是否 强 迫 计算 描述 子 的 方位 force orientation 
(False 表示 所 有 的 方位 都 是 朝 上 的 ) ， 用 于 调整 图 像 大 小 的 元 组 "”" 





im = Image.open(imagename).convert('L' ) 
if resize!=None: 

im = im.resize(resize) 
m,n = im.size 


if imagename[-3:] != 'pgm': 
# 创建 一 个 pgm 文件 
im.save('tmp.pgm' ) 
imagename = ‘tmp.pgm' 





# 创建 帧 ， 并 保存 到 临时 文件 

Scale = Size/ 320 

x,y = meshgrid(range(steps,m,steps), range(steps,n,steps) ) 

xx, yy = x.flatten(),y.flatten() 

frame = array([xx, yy, Scale*ones(xx.shape[0]),zeros(xx.shape[0]) ]) 
savetxt('tmp.frame',frame.T, fmt='%03.3f' ) 


if force orientation: 
cmmd = str("sift "+imagename+" --output="+resultname+ 
" --read-frames=tmp.frame --orientations") 
else: 
cmmd = str("sift "+imagename+" --output="+resultname+ 
" --read-frames=tmp. frame" ) 
os.system(cmmd) 
print ‘processed’, imagename, ‘to', resultname 


对 比 2.2 市 的 process image() 国 数 ， 为 了 使 用 命令 行 处 理 ， 我 们 用 savetxt() 函数 
将 帧 数组 存储 在 一 个 文本 文件 中 ， 该 国 数 的 最 后 一 个 参数 可 以 在 提取 描述 子 之 前 对 
图 像 的 大 小 进行 调整 ， 人 例如， 传递 参数 imsize=(100, 100) 会 将 图 像 调 整 为 100 x 100 
像素 的 方形 图 像 。 最 后 ， 如 果 force orientation 为 真 ， 则 提取 出 来 的 描述 子 会 基于 
局 部 主 梯度 方向 进行 归 一 人 化， 否则 ， 则 所 有 的 描述 子 的 方 回 只 是 简单 地 朝 上 。 


利用 类 似 下 面 的 代码 可 以 计算 稠密 SIFT 描述 子 ， 并 可 视 化 它们 的 位 置 : 








import dsift,sift 


dsift.process image dsift('empire.jpg','empire.sift',90,40,True) 
l,d = sift.read features from file('empire.sift' ) 


im = array(Image.open('empire.jpg' ) ) 
sift.plot_features(im,1,True) 
show( ) 
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使 用 用 于 定位 描述 子 的 局 部 梯度 方 同 (force orientation 设置 为 真 )， 该 代码 可 以 
在 整个 图 像 中 计算 出 稠密 SIFT 特征 。 图 8-2 显示 出 了 这 些 位 置 。 
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8-2: 在 一 幅 图 像 上 应 用 稠密 SIFT 描述 子 的 例子 


8.1.3 图像 分 类 : 手势 识别 

在 这 个 应 用 中 ， 我 们 会 用 稠密 SIFT 描述 子 来 表示 这 些 手势 图 像 ， 并 建立 一 个 简单 
的 手势 识别 系统 。 我 们 用 静态 手势 (Static Hand Posture) 数据 库 (参见 http://www. 
idiap.ch/resource/gestures/) 中 的 一 些 图 像 进行 演示 。 在 该 数据 库 主 页 上 下 载 数 据 较 
小 的 测试 集 test set 16.3Mb， 将 下 载 后 的 所 有 图 像 放 在 一 个 名 为 uniform 的 文件 夹 
里 ， 每 一 类 均 分 两 组 ， 并 分 别 放 入 名 为 train 和 test 的 两 个 文件 夹 中 。 


用 上 面 的 稠密 SIFT 函数 对 图 像 进行 处 理 ， 可 以 得 到 所 有 图 像 的 特征 向 量 。 这 里 ， 
再 次 假设 列表 imlist 中 包含 了 所 有 图 像 的 文件 和 名， 可 以 通过 下 面 的 代码 得 到 每 幅 图 
像 的 稠密 SIFT 特征 : 


import dsift 





# 将 图 像 尺 寸 调 为 (50,50)， 然 后 进行 处 理 
for filename in imlist: 
featfile = filename[:-3]+'dsift' 
dsift.process image dsift(filename, featfile,10,5,resize=(50, 50) ) 


上 面 代码 会 对 每 一 幅 图 像 创 建 一 个 特征 文件 ， 文 件 名 后 组 为 .dsift。 注 意 ， 这 里 将 图 
RDB TR LE RA, ETE BRAY, AMARA A A al Bee 
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描述 子 ， 从 而 每 幅 图 像 的 特征 向 量 长 度 也 不 一 样 ， 这 将 导致 在 后 面 比 较 它 们 时 出 错 。 
图 8-3 绘制 出 了 一 些 带 有 摘 述 子 的 图 像 。 









SA “B” “C”? 
“Five” “Point” Vy” 








8-3: 6 类 简单 手势 图 像 的 稠密 SIFT 描述 子 ， 图 像 来 源 于 静态 手势 (Static Hand Posture) 
数据 库 


定义 一 个 辅助 函数 ， 用 于 从 文件 中 读 取 稠密 SIFT 摘 述 子 ， 如 下 : 
import os, sift 


def read gesture features labels(path): 
# 对 所 有 以 .dsift 为 后 缀 的 文件 创建 一 个 列表 
featlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.dsift') |] 
# 读 取 特 征 
features = | 
for featfile in featlist: 
1,d = sift.read features from file(featfile) 
features.append(d.flatten()) 
features = array(features) 


# 创建 标记 
labels = [featfile.split('/')[-1][0] for featfile in featlist] 


return features, array(labels) 








然后 ， 我 们 可 以 用 下 面 的 脚本 读 取 训练 集 、 测 试 集 的 特征 和 标记 信息 : 
features, labels = read gesture features labels('train/' ) 
test _features,test labels = read gesture features labels('test/') 


classnames = unique(labels) 


这 里 ， 我 们 用 文件 名 的 第 一 个 字母 作为 类 标记 ， 用 NumPy AY unique() 函数 可 以 得 到 
一 个 排序 后 唯一 的 类 名 称 列 表 。 


现在 我 们 可 以 在 该 数据 上 使 用 前 面 的 KK 近邻 代码 : 


# 测试 KNN 

ksi 

knn classifier = knn.KnnClassifier(labels,features) 

res = array([knn_classifier.classify(test_features[i],k) for i in 
range(len(test_labels)) ]) 


# 准确 率 
acc = sum(1.0*(res==test labels)) / len(test_ labels) 
print “Accuracy: s acc 


首先 ， 用 训练 数据 及 其 标记 作为 输入 ， 创 建 分 类 絮 对 象 ， 然 后 ， 我 们 在 整个 测试 集 
Li JSR classify() 方法 对 每 幅 图 像 进行 分 类 。 将 布尔 数组 和 1 相 乘 并 求 和 ， 可 
以 计算 出 分 类 的 正确 率 。 由 于 该 例 中 真 值 为 1!1， 所 以 很 容易 计算 出 正确 分 类 数 。 它 
应 该 会 打印 出 一 个 类 似 下 面 的 结 采 : 


Accuracy: 0.811518324607 


这 说 明 该 例 中 有 81% 的 图 像 古 正确 的 。 该 结 末 会 随 K 值 及 稠密 SIFT 图 像 描 述 子 参 
数 的 选择 而 变化 。 


虽然 上 面 的 正确 率 显 示 了 对 于 一 给 定 的 测试 集 有 多 少 图 像 古 正确 分 类 的 ， 但 是 它 并 
设 有 告诉 我 们 哪些 手势 难以 分 类 ， 或 会 犯 哪些 典型 错误 。 混 清 答 阵 古 一 个 可 以 显示 
每 类 有 多 少 个 样本 被 分 在 每 一 类 中 的 矩阵 ， 它 可 以 显示 错误 的 分 布 情况 ， 以 及 哪些 
类 是 经 党 相互 “混淆” 的 。 








下面 的 函数 会 打印 出 标记 及 相应 的 混淆 和 矩阵: 
def print confusion(res,1abels,classnames): 


n = len(classnames) 
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# 混 请 矩阵 
class ind = dict([(classnames[i],i) for i in range(n) ]) 


confuse = zeros((n,n)) 
for i in range(len(test_labels)): 
confuse[class ind[res[i]],class ind[test labels[i]]] += 1 


print ‘Confusion matrix for' 
print classnames 
print confuse 


»— 一 


IA1T: 
print_confusion(res,test_labels,classnames) 
打印 输出 应 该 如 下 : 


Confusion matrix for 


[Ca Oe ea “eb So 

FL 2. De 2a. ee he. “Ae 
S02 265 206: Ms Bs Ael 
|. (Oe. Or 25s. 10s. Oe Ae 
[ O. 3. She, Ox. “0% 
fs He. “Re 2. Oe SI, “ll 
| Be Bs Be Ge My OAT] 


上 面 混 洒 矩阵 显示 ， 本 例子 中 P 了 (Point) BERRIN V”. 


8.2 WNT Mat Zee 


另 一 个 简单 却 有 效 的 分 类 器 是 贝 叶 斯 分 类 器 (或 称 朴 素 贝 叶 斯 分 类 器 ) 。 贝 叶 斯 分 
类 如 是 一 种 基于 贝 叶 斯 条 件 概 率 定 理 的 概率 分 类 如 ， 它 假设 特征 是 彼此 独立 不 相关 的 
(这 就 是 它 “ 杆 素 ” 的 部 分 )。 贝 叶 斯 分 类 器 可 以 非 第 有 效 地 被 训练 出 来 ,原因 在 于 
每 一 个 特征 模型 都 是 独立 选取 的 。 尽 管 它 们 的 假设 非常 简单 ， 但 是 贝 叶 斯 分 类 维 已 经 
在 实际 应 用 中 获得 显 闭 成 效 ， 尤 其 是 对 垃圾 邮件 的 过 小 。 贝 叶 斯 分 类 幽 的 男 一 个 好 处 
契 ， 一 且 学 习 了 这 个 模型 ， 束 没有 必要 存储 训练 数据 了 ， 只 需 存 储 模 型 的 参数 。 


该 分 类 絮 是 通过 将 各 个 特征 的 条 件 概 率 相 乘 得 到 一 个 类 的 总 概率 ， 然 后 选取 概率 最 
高 的 那个 类 构造 出 来 的 。 











注 1: 贝 叶 斯 分 类 器 站 以 18 世纪 英国 教学 家 、 牧 师 托马斯 贝 叶 斯 命名 的 。 





首先 让 我 们 看 一 个 使 用 高 斯 概率 分 布 模型 的 贝 叶 斯 分 类 如 基本 实现 ， 也 就 是 用 从 
训练 数据 集 计 算得 到 的 特征 均值 和 方差 米 对 每 个 特征 单独 建 模 。 把 下 面 的 Bayes 
Classifier 类 添加 到 文件 bayes.py 中 : 


class BayesClassifier(object): 


def init (self): 
""" 使 用 训练 数据 初始 化 分 类 如 """ 


self.labels = [] # 类 标签 
self.mean = [] # 类 均值 
self.var = [] # 类 方差 
self.n = 0 # 类 别 数 


def train(self,data, labels=None): 
nun 在 数据 data (nx dim 的 数组 列表 ) 上 训练 ， 标 记 labels 是 可 选 的 ， 默 认为 0…1-1 """ 


if labels==None: 

labels = range(len(data) ) 
self.labels = labels 
self.n = len(labels) 


for c in data: 
self.mean.append(mean(c,axis=0)) 
self.var.append(var(c,axis=0)) 


def classify(self,points): 
ee 通过 计算 得 出 的 每 一 类 的 概率 对 数据 点 进行 分 类 ， 并 返回 最 可 能 的 标记 """ 


# 计算 每 一 类 的 概率 
est prob = array([gauss(m,v,points) for m,v in zip(self.mean,self.var) ]) 





# 获取 具有 最 高 概率 的 索引， 该 索引 会 给 出 类 标签 
ndx = est_prob.argmax(axis=0) 
est labels = array([self.labels[n] for n in ndx]) 


return est labels, est prob 


该 模型 每 一 类 都 有 两 个 变量 ， 即 类 均值 和 协 方差 。train() 方法 歼 取 特征 数组 列表 
(每 个 类 对 应 一 个 特征 数组 )， 并 计算 每 个 特征 数组 的 均值 和 协 方 差 。classify() 方 
法 计算 数据 点 构成 的 数组 的 类 概率 ， 并 选 概 率 最 高 的 那个 类 ， 最 终 返 回 预 测 的 类 标 
记 及 概率 值 ， 同 时 需要 一 个 高 斯 辅助 函数 : 
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def gauss(m,v,x): 


""" 用 独立 均值 m 和 方差 v 评估 d 维 高 斯 分 布 """ 


if len(x.shape)==1: 
n,d = 1,x.shape[0] 
else: 
n,d = x.shape 


# 协 方差 矩阵 ， 减 去 均值 
S = diag(1/v) 


X = X-M 
# 概率 的 乘积 


y = exp(-0.5*diag(dot(x,dot(S,x.T)))) 


t 归 一 化 并 返回 

return y * (2*pi)**(-d/2.0) / ( sqrt(prod(v)) + 1e-6) 
1 eB A He ee eT oo MARI, ae Tl 25 E — 2 a A m Fv 的 概率 ， 更 
多 多 元 正 态 分 布 例子 可 以 参见 http://en. wikipedia.org/wiki/Multivariate_normal_ 


distribution 。 


将 该 贝 叶 斯 分 类 器 用 于 上 一 节 的 二 维 数据 ， 下 面 的 脚本 将 载 入 上 一 节 中 的 二 维 数据 ， 
并 训练 出 一 个 分 类 器 : 





import pickle 
import bayes 
import imtools 


# FA Pickle 模块 载 入 二 维 样本 点 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle. load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# WIZ UL aa ZR at 
bc = bayes.BayesClassifier() 
bc.train([class 1,class 2],[1,-1]) 


下 面 我 们 可 以 载 入 上 一 节 中 的 二 维 测 试 数 据 对 分 类 器 进行 测试 : 


# 用 Pickle 模块 载 和 人 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle. load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 





192 | 第 8 章 


# 在 某 些 数据 点 上 进行 测试 
print bc.classify(class 1[:10])[0] 





# 绘制 这 些 二 维 数据 点 及 决策 边界 
def classify(x,y,bc=bc): 

points = vstack((x,y)) 

return bc.classify(points.T)[0] 


imtools.plot_2D boundary([-6,6,-6,6],[class 1,class 2],classify,[1,-1]) 
show() 


该 脚本 会 将 前 10 7S ZR BH RAY 2 EA RAT Ela SPE HG, AC AGAR A PP: 
Dt at a a, a | 
我 们 再 次 用 一 个 辅助 函数 classify() 在 一 个 网 格 上 评估 该 函数 来 可 视 化 这 一 分 类 结 


末 。 两 个 数据 集 的 分 类 结 末 如 图 8-4 所 示 ; 该 例 中 ， 决 策 边 界 是 一 个 椭圆 ， 类 似 于 
二 维 高 斯 函数 的 等 值 线 。 

















图 8-4: 用 贝 叶 斯 分 类 器 对 二 维 数据 进行 分 类 。 每 个 例子 中 的 颜色 代表 了 类 标记 。 正 确 分 类 
的 点 用 星 号 表示 ， 误 错 分 类 的 点 用 圆 点 表示 ， 曲 线 是 分 类 器 的 决策 边界 


用 PCA 降 维 

现在 ， 我 们 党 斌 手势 识 别 问 题 。 由 于 稠密 SIFT 描述 子 的 特征 向 量 十 分 庞大 (从 前 
面 的 例子 可 以 看 到 ， 参 数 的 选取 超过 了 10 000) ， 在 用 数据 拟 合 模型 之 前 进行 降 维 
处 理 是 一 个 很 好 的 想法 。 主 成 分 分 析 ， 即 PCA ( 见 1.3 节 )， 非 常 适 合用 于 降 维 。 下 
面 的 脚本 就 是 用 pca.py 中 的 PCA 进行 降 维 : 
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import pca 
V,S,m = pca.pca(features) 


# 保持 最 重要 的 成 分 

V = V[:50] 

features = array(|[dot(V,f-m) for f in features]) 

test features = array([dot(V,f-m) for f in test features ]) 


这 里 的 features 和 test_features 5 K 邻近 中 的 例子 中 加 载 的 数组 是 一 样 的 。 在 本 
例 中 ， 我 们 在 训练 数据 上 用 PCA 降 维 ， 并 保持 在 这 50 维 具 有 最 大 的 方差 。 这 可 以 
通过 均值 m (是 在 训练 数据 上 计算 得 到 的 ) 并 与 基 问 量 V 相 乘 做 到 。 对 测试 数据 进 
行 同样 的 转换 。 
训练 并 测试 贝 叶 斯 分 类 絮 如 下 : 

# 测试 贝 叶 斯 分 类 妖 


bc = bayes.BayesClassifier() 
blist = [features[where(labels==c)[0]] for c in classnames] 


bc.train(blist,classnames) 
res = bc.classify(test features)[0] 


由 于 BayesClassifier 需要 获取 数组 列表 (每 一 类 对 应 一 个 数组 )， 在 把 数据 传递 给 
train() 函数 之 前 ， 我 们 需要 对 数据 进行 转换 。 因 为 我 们 目前 还 不 需要 概率 ， 所 以 只 
需 运 回 预 测 的 类 标记 。 


检查 分 类 准确 率 : 





acc = sum(1.0*(res==test labels)) / len(test labels) 
print ‘Accuracy:', acc 


输出 如 下 结果 : 


Accuracy: 0.717277486911 
or ELEGY FED : 
print_confusion(res,test_labels,classnames) 


输出 如 下 结果 : 





194 | 第 8 章 


Confusion matrix for 


| 
LL 20m, OL. “Oe ae. 105. vO 
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虽然 分 类 效 采 不 如 KK MTR ae, TE ee DP SOT K ar AN as 22 OR E M I BCH , 
而 且 只 需 保 存 每 个 类 的 模型 参数 。 这 一 结 东 会 随 着 PCA 维度 选取 的 不 同 而 发 生 巨 大 
He Tt. 


8.3 文 持 回 量 机 

SVM (Support Vector Machine， 支 持 向 量 机 ) 是 一 类 强大 的 分 类 絮 ， 可 以 在 很 多 分 
类 问题 中 给 出 现 有 水 准 很 高 的 分 类 结果 。 最 简单 的 SVM 通过 在 高 维 空间 中 寻找 一 
个 最 优 线 性 分 类 面 ， 尽 可 能 地 将 两 类 数据 分 开 。 对 于 一 特征 同 量 x 的 决策 函数 为 : 





f(x)=w-x-b 


Srp w ERMEE, bMS ELAR, PEC By 0, CAERE He 
类 数据 分 开 ， 使 其 一 类 为 正 数 ， 另 一 类 为 负数 。 通 过 在 训练 集 上 求解 那些 带 有 标记 
ye {1 D 的 特征 向 量 x 的 最 优化 问题 ， 使 超 平面 在 两 类 间 具 有 最 大 分 开间 隔 ， 从 
而 找到 上 面 决策 函数 中 的 参数 w 和 4b。 该 决策 函数 的 常规 解 是 训练 集 上 某 些 特征 向 
量 的 线性 组 合 : 


w= CO 
所 以 决策 函数 可 以 写 为 : 
f(x) = 2 .Lyx X—b 
这 里 的 是 从 训练 集中 选 出 的 部 分 样本 ， 这 里 选择 的 样本 称 为 支持 向 量 ， 因 为 它们 
可 以 帮助 定义 分 类 的 边界 。 


SVM 的 一 个 优势 是 可 以 使 用 核 函 数 (kernel function) ; 核 国 数 能 够 将 特征 癌 量 映射 到 
男 外 一 个 不 同 维度 的 空间 中 ， 比 如 高 维度 空间 。 通 过 核 函 数 上 映射， 依然 可 以 保持 对 决 
策 国 数 的 控制 ， 从 而 可 以 有 效 地 解决 非 线性 或 者 很 难 的 分 类 问题 。 用 核 国 数 K(x; , x) 
FARE TARE ER BAIA BR x, : x。 
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下 面 定 一 些 最 笛 匈 的 核 国 数 : 


。 线性 是 最 简单 的 情况 ， 即 在 特征 空间 中 的 超 平面 是 线性 的 ，K(x,, x)=x xs 

© 多 项 式 用 次 数 为 d 的 多 项 式 对 特征 进行 映射 ，K(x, x)=(Yx;: x+7)”，Y>0; 

。 径 向 基 函 数 ， 通 常 指数 函数 是 一 种 极其 有 效 的 选择 ，KCc , xe, y>0; 
e Sigmoid 函数 ， 一 个 更 光 背 的 超 平 面 替 代 方 案 ，K(x;, x)=tanh(yx x+ 门 。 


每 个 核 函数 的 参数 部 古 在 训练 阶段 确定 的 。 


对 于 多 分 类 问题 ， 通 前 训练 多 个 SVM， 使 每 一 个 SVM 可 以 将 其 中 一 类 与 其 余 类 分 
开 ， 这 样 的 分 类 絮 也 称 为 “one-versus-all” 分 类 如 。 关 于 SVM WE 24 AA Be 
文献 [9] 以 及 在 线 文档 http://www.support-vector.net/references.html 。 








8.3.1 使 用 LibSVM 


LibSVM[7] 是 最 好 的 、 使 用 最 广泛 的 SVM 实现 工具 包 。LibSVM 为 Python 提供 了 
一 个 民 好 的 接口 (也 为 其 他 编程 语言 提供 了 接口 )。 关 于 安装 说 明 ， 可 以 参阅 附录 
AA, 


我 们 看 看 LibSVM 在 二 维 样本 数据 点 上 是 怎样 工作 的 。 下 面 的 脚本 会 载 入 在 前 面 
KNN 范例 分 类 中 用 到 的 数据 点 ， 并 用 人 径 向 基 范 数 训 练 一 个 SVM 分 类 器 : 


import pickle 
from svmutil import * 
import imtools 


# FH Pickle 载 入 二 维 样本 点 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# 转换 成 列表 ， 便 于 使 用 1ibSvM 

class 1 = map(list,class 1) 

class 2 = map(list,class 2) 

labels = list(labels) 

samples = class 1+class 2 # 连 接 两 个 列表 


# 创建 SVM 
prob = svm problem(labels,samples) 
param = svm parameter('-t 2') 


# 在 数据 上 训练 SVM 
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m = svm train(prob, param) 


# 在 训练 数据 上 分 类 效果 如 何 ? 


res = svm predict(labels,samples,m) 


我 们 用 与 前 面 一 样 的 方法 载 入 数据 集 ， 但 是 这 次 需要 把 数组 转 成 列表 ， 因 为 
LibSVM 不 支持 数组 对 象 作 为 输入 。 这 里 ， 我们 用 Python 的 内 建国 数 map() 进行 转 
换 ，map() 国 数 中 用 到 了 对 角 一 个 元 素 都 会 进行 转换 的 1ist() 函数 。 紧 接着 我 们 创 
建 了 一 个 swm problem 对 象 ， 并 为 其 设置 了 一 些 参数 。 调 用 svm train() 求解 该 优 
化 问题 用 以 确定 模型 参数 ， 然 后 就 可 以 用 该 模型 进行 预测 了 。 最 后 一 行 调用 svm_ 
predict()， 用 求 得 的 模型 m 对 训练 数据 分 类 ， 并 显示 出 在 训练 数据 中 分 类 的 正确 
率 ， 打 印 输出 结 来 如 下 : 


Accuracy = 100% (400/400) (classification) 
EER AVIA a Kas CAI SWAB, 400 个 数据 点 全 部 分 类 正确 。 


注意 ， 我 们 在 调用 方法 训练 分 类 器 时 添加 了 一 个 参数 选择 字符 串 ， 这 些 参 数 用 于 控 
制 核 函数 的 类 型 、 等 级 及 其 他 选项 。 尽 省 其 中 大 部 分 超出 了 本 书 玫 围 ， 但 古 需 要 知 
道 两 个 重要 有 的 参数 1 和 有。 参数 1 决定 了 所 用 核 函 数 的 类 型 ， 该 选项 是 : 











“f 核 函数 


Ww N FS O 
~ 

© HN 
EN 


参数 决定 了 多 项 式 的 次 数 (默认 为 3)。 
现在 ， 载 入 其 他 数据 集 ， 并 对 该 分 类 侨 进 行 测 试 : 


# FH Pickle 模块 载 入 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle. load(f) 
labels = pickle. load(f) 


# 转换 成 列表 ， 便 于 使 用 LipsVM 
class 1 = map(list,class 1) 
class 2 = map(list,class 2) 


H 定义 绘图 函数 
def predict(x,y,model=m): 
return array(svm predict([0]*len(x),zip(x,y),model)[01]) 
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# 绘制 分 类 边界 
imtools.plot 2D boundary([-6,6,-6,6],[array(class 1),array(class 2)],predict,[-1,1]) 
show( ) 


我 们 需要 再 次 为 LibSVM 将 数据 转 成 列表 ， 同 时 和 之 前 一 样 ， 我 们 定义 了 一 个 辅 
B) A žr predict) 来 绘制 分 类 的 边界 。 注 意 ， 如 果 无 法 获取 真实 的 标记 ， 我 们 用 
([0]*len(x)) 列表 来 代替 标记 列表 。 只 要 代替 的 标记 列表 长 度 正 确 ， 你 可 以 使 用 任意 
的 列表 。 图 8-5 显示 了 两 个 不 同 数据 集 在 二 维 平面 上 的 分 布 情况 。 


























图 8-5: 用 支持 向 量 机 SVM 对 二 维 数据 进行 分 类 。 在 这 两 幅 图 中 ， 我 们 用 不 同 颜色 标识 类 标 
记 。 正 傅 分 类 的 点 用 星 号 表示 ， 错 误 分 类 的 点 用 圆 点 表示 ， 曲 线 定 分 类 器 的 决策 边 容 


8.3.2 再 论 手势 识别 
在 多 类 手势 识别 问题 上 使 用 LibSVM 相当 直观 。LibSVM 可 以 目 动 处 理 多 个 类 ， 我 
们 只 需要 对 数据 进行 格式 化 ， 使 输入 和 输出 匹配 LibSVM 的 要 求 。 


和 之 前 的 例子 一 样 ，feature 和 test_features 两 个 文件 中 分 别 数组 的 形式 保存 训练 数据 
和 测试 数据 。 下 面 的 代码 会 载 入 训练 数据 测试 数据 ， 并 训练 一 个 线性 SVM 分 类 器 : 


features = map(list, features) 
test_features = map(list,test features) 


H 为 标记 创建 转换 函数 

trans! = {} 

for i,c in enumerate(classnames): 
transl ch trans! (4), Se 


# 创建 SVM 
prob = svm problem(convert_labels(labels,trans1), features) 
param = svm parameter('-t 0') 





# 在 数据 上 训练 SVM 


m = svm train(prob, param) 


t 在 训练 数据 上 分 类 效果 如 何 


res = svm predict(convert_labels(labels,trans1l),features,m) 


# MA SVM 
res = svm predict(convert_labels(test_labels,transl),test_features,m)[0] 
res = convert _labels(res, transl) 


与 之 前 一 样 ， 我 们 调用 map) 函数 将 数组 转 成 列表 ， 因 为 LibSVM 不 能 处 理 字 符 串 
标记 ， 所 以 这 些 标记 也 需要 转换 。 字 上 典 transl 会 包含 一 个 在 字符 串 和 整数 标记 间 的 
变换 。 你 可 以 试 着 在 控制 台 上 打印 该 变换 ， 看 看 其 对 应 变换 关系 。 参 数 -t 0 设置 分 
类 器 是 线性 分 类 器 ， 决 策 边 界 在 10 000 维特 征 原 空间 中 是 一 个 超 平面 。 


现在 ， 对 标记 进行 比较 : 





acc = sum(1.0*(res==test labels)) / len(test_ labels) 
print 'Accuracy:', acc 


print_confusion(res,test_labels,classnames) 
用 线性 核 国 数 得 出 的 分 类 结 采 如 下 : 


Accuracy: 0.916230366492 
Confusion matrix for 


Pane SBP aR pe ee 

iE 26m. 202, Ax: 0h 2a: Wx] 
i Oy. 28s: Oe De We. 102] 
20s. 100.620 Os. “0%, Oa 
i SOs 22h, Os: SCs O Oe] 
| 90%. “dle, We: 07 27, Ae) 
CP. 3h Ge Das. 3h. 27 


现在 ， 正 如 我 们 在 8.2 节 所 做 的 ， 用 PCA 将 维 数 降 低 到 50， 分 类 正确 率 变 为 : 


Accuracy: 0.890052356021 


可 以 看 出 ， 当 特征 癌 量 维 数 降低 到 原 空 间 数 据 维 数 的 1/200 时 ， 结 果 并 不 差 (存储 
支持 向 量 所 需 占 用 的 空间 也 减 小 到 原来 的 1/200 ) 。 


8.4 ”光学 字符 识别 
作为 一 个 多 类 问题 实例 ， 让 我 们 来 理解 数 独 图 像 。OCR (Optical Character Recognition, 
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光学 字符 识别 ) 是 一 个 理解 手写 或 机 写 文 本 图 像 的 处 理 过 程 。 一 个 第 见 的 例子 古 通 
过 扫描 文件 来 提取 文本 ， 例 如 书信 中 的 邮政 编码 或 者 谷歌 图 书 (http://books.google. 
com/) 里 图 书馆 卷 的 页 数 。 这 里 我 们 看 一 个 简单 的 在 打印 的 数 独 图 形 中 识别 数字 的 
OCR 问题 。 数 独 是 一 种 数字 逻辑 游戏 ， 规 则 是 用 数字 1~9 填 满 9 x9 的 网 格 ， 使 每 
一 行 每 一 列 和 每 个 3 x 3 的 子 网 格 包含 数字 1…9 。 在 这 个 例子 中 我 们 只 对 正确 地 读 
取 和 理解 它们 感 兴趣 ， 对 于 完成 识别 后 怎样 求解 这 些 数 独 问 题 我 们 就 留 给 你 。 





8.4.1 训练 分 类 器 

对 于 这 种 分 类 问题 ， 我 们 有 10 个 类 : 数字 1…9， 以 及 一 些 什 么 也 没有 的 单元 格 。 
我 们 给 定 什 么 也 没有 的 单元 格 的 类 标号 是 0， 这 样 所 有 类 标记 就 是 0…9。 我 们 会 用 
已 经 剪 切 好 的 数 独 单 元 格 数据 集 来 训练 一 个 10 类 的 分 类 器 “文件 sudoku_images.zip 
中 有 两 个 文件 夹 “ocr data” 和 “sudokus”， 后 者 包含 了 不 同 条 件 下 的 数 独 图 像 集 ， 
我 们 稍 后 讲解 。 现 在 我 们 主要 来 看 文件 夹 “ocr_data”， 这 个 文件 夹 包 含 了 两 个 子 文 
件 夹 ， 一 个 装 有 训练 图 像 ， 另 一 个 装 有 测试 图 像 。 这 些 图 像 文件 名 的 第 一 个 字母 是 
数字 (0…9) ， 用 以 标明 它们 属于 哪 类 。 图 8-6 展示 了 训练 集中 的 一 些 样本 。 图 像 是 
灰 度 图 ， 大 概 是 80 x 80 像素 (有 一 幅 波动 )。 











8.4.2 ”选取 特征 

我 们 首先 要 确定 选取 怎样 的 特征 癌 量 来 表示 每 一 个 单元 格 里 的 图 像 。 有 很 多 不 错 的 
选择 ， 这 里 我 们 将 会 用 某 些 人 简单 而 有 效 的 特征 。 输 入 一 个 图 像 ， 下 面 的 函数 将 返回 
一 个 拉 成 一 组 数组 后 的 灰 度 值 特征 问 量 : 








def compute feature(im) : 
""" 对 一 个 ocr 图 像 块 返回 一 个 特征 癌 量 """ 


# 调整 大 小 ， 并 去 除 边界 
norm im = imresize(im, (30,30)) 
norm im = norm _im[3:-3,3:-3] 


return norm_im.flatten() 


compute_feature() 图 数 用 到 imtools 模块 中 的 尺寸 调整 图 数 imresize()， 来 减少 特征 问 
量 的 长 度 。 我 们 还 修剪 掉 了 大 约 10% 的 边界 像素 ， 因 为 这 些 修 剪 掉 的 部 分 通 稍 是 网 
格 线 的 边缘 部 分 ， 如 图 8-6 所 示 。 





TE 1: 如 果 你 不 熟悉 该 概念 ， 更 多 细 市 参见 http://en.wikipedia.org/ wiki /Sudoku。 
注 2: KRÆ H Martin Byrod [4], http:Wwww.maths.lth.se/matematikith/personalbyrod， 搜 集 、 裁 前 于 真实 的 数 
独 照片 。 
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8-6: 用 于 训练 10 类 数 独 OCR 分 类 器 的 训练 样本 图 像 
现在 我 们 用 下 面 的 函数 来 读 取 训 练 数据 : 


def load ocr data(path): 
"返回 路 径 中 所 有 图 像 的 标记 及 OCR 特征 "" 





# 对 以 .jpg 为 后 级 的 所 有 文件 创建 一 个 列表 

imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 
# 创建 标记 

labels = [int(imfile.split('/')[-1][0]) for imfile in imlist] 


# 从 图 像 中 创建 特征 
features = | 
for imname in imlist: 
im = array(Image.open(imname).convert('L')) 
features.append(compute_feature(im) ) 
return array(features), labels 


上 述 代 码 将 每 一 个 JPEG 文件 的 文件 名 中 的 第 一 个 字母 提取 出 来 做 类 标记 ， 并 且 这 
些 标 记 被 作为 整 型 数据 存储 在 lables 列表 里 ， 用 上 面 的 函数 计算 出 的 特征 向 量 存 储 
在 一 个 数组 里 。 


8.4.3 SERBS 
在 得 到 了 训练 数据 之 后 ， 我 们 接 下 来 要 学 习 一 个 分 类 器 ， 这 里 将 使 用 多 类 支持 向 量 
机 。 代 码 和 上 一 节 中 的 代码 类 似 ; 


from svmutil import * 


# 训练 数据 


features,labels = load ocr data('training/') 


# 测试 数据 
test features,test labels = load ocr data('testing/' ) 
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# 训练 一 个 线性 SVM 2 Bat 
features = map(list, features) 
test_features = map(list,test features) 


prob = svm problem(labels, features) 
param = svm parameter('-t 0') 


m = svm train(prob, param) 


# 在 训练 数据 上 分 类 效果 如 何 


res = svm predict(labels,features,m) 


# 在 测试 集 上 表现 如 何 


res = svm predict(test labels,test features,m) 


该 代码 会 训练 出 一 个 线性 SVM 分 类 如 ， 并 在 测试 集 上 对 该 分 类 融 的 性 能 进行 测试 ， 
你 可 以 通过 调用 最 后 两 个 sym predict() 函数 得 到 以 下 输出 结果 : 


Accuracy = 100% (1409/1409) (classification) 
Accuracy = 99.2979% (990/997) (classification) 


真是 一 个 极 好 的 结 末 ， 训 练 集中 的 1409 RERE 10 类 中 都 被 完美 地 分 准确 了 ， 在 
测试 集 上 识别 性 能 也 在 99% 左右 。 现 在 我 们 可 以 将 这 一 分 类 颖 用 到 经 过 裁 芯 的 新 数 
PERE. 


8.4.4 提取 单元 格 并 识别 字符 

有 了 识别 单元 格 内 容 的 分 类 右 后 ， 下 一 步 就 是 和 目 动 地 找到 这 些 单 元 格 。 一 旦 我 们 解 
决 了 这 个 同 题 ， 就 可 以 对 单元 格 进行 裁剪 ， 并 把 裁剪 后 的 单元 格 传 给 分 类 大。 我 们 
假设 数 独 图 像 是 已 经 对 齐 的 ， 其 水 平和 垂直 网 格 线 平 行 于 图 像 的 边 ， 如 图 8-7 所 示 。 
在 这 些 条 件 下 ， 我 们 可 以 对 图 像 进行 国 值 化 处 理 ， 并 在 水 平和 垂直 方 和 同上 分 别 对 像 
素 值 求 和 。 由 于 这 些 经 国 值 处 理 的 边界 值 为 1， 而 其 他 部 分 值 为 0， 所 以 这 些 边 界 处 
会 给 出 很 给 的 啊 应 ， 可 以 告诉 我 们 从 何 处 进行 裁剪 。 


下 面 函 数 接受 一 幅 灰 度 图 像 和 一 个 方向 ， 返 回 该 方向 上 的 10 条 边界 : 


from scipy.ndimage import measurements 





def find sudoku_edges(im, axis=0): 


""" 对 一 幅 对 齐 后 的 数 独 图 像 查找 单元 格 的 边界 """ 


# 立 值 处 理 ， 处 理 后 对 每 行列 ) 相 加 求 和 
trim = 1*(im<128) 


s = trim.sum(axis=axis) 


# 寻找 连通 域 





s labels,s nbr = measurements.label(s>(0.5*max(s))) 

# 计算 各 连通 域 的 质心 

m = measurements.center_ of mass(s,s labels, range(1,s_nbr+1) ) 
# 对 质心 取 整 ， 质 心 即 为 相 线条 所 在 位 置 

x = [int(x[0]) for x in m] 


# 只 要 检测 到 4 条 粗 线 ， 便 在 这 4 RAZR Zl SIZ 
if len(x)==4: 
dx = diff(x) 
x = [x[0],x[o]+dx[0]/3,x[0]+2*dx[0]/3, 
x[1],x[1]+dx[1]/3,x[1]+2*dx[1]/3, 
x[2],x[2]+dx[2]/3,x[2]+2*dx[2]/3,x[3]] 


if len(x)==10: 
return x 
else: 
raise RuntimeError('Edges not detected. ') 


首先 对 图 像 进 行 国 值 化 处 理 ， 对 灰 度 值 小 于 128 的 瞳 区 域 赋 值 为 1， 否 则 为 0; 
然后 在 特定 的 方向 上 (如 axis=0 或 1) hie HE ee (Bb E a (RS KR A 
Scipy.ndimage 包含 measurements 模块 ， 该 模块 在 二 进 制 或 标记 数组 中 对 于 计数 及 测 
量 区 域 是 非常 有 用 的 。 首 先 ，labels() 找 出 二 进 制 数组 中 相连 接 的 部 件 ， 该 二 进 制 
数组 是 通过 求 和 后 取 中 值 并 进行 国 值 化 处 理 得 到 的 。 然 后 ，center of mass() 函数 
计算 每 个 独立 组 件 的 质心 。 你 可 能 得 到 4 个 或 10 个 点 ， 这 主要 依赖 于 数 独 平 面 造 型 
设计 (所 有 的 线条 是 等 粗细 的 或 子 网 格 线条 比 其 他 的 粗 )。 在 4 个 点 的 情况 下 ， 会 以 
一 定 的 间隔 插入 6 条 直线 。 如 果 最 后 的 结果 没有 10 条 线 ， 则 会 抛 出 一 个 异常 。 


sudokus 文件 夹 里 包含 不 同 难 易 程 度 的 数 独 图 像 ， 每 幅 图 像 都 对 应 一 个 包含 数 独 真 
实 值 的 文件 ， 我 们 可 以 用 它 来 检查 识别 结 霖 。 有 一 些 图 像 已 经 和 图 像 的 边框 对 齐 ， 
从 中 挑选 一 幅 图 像 ， 用 以 检查 图 像 裁 药 及 分 类 的 性 能 : 

imname = 'sudokus/sudoku18. jpg’ 


vername = ‘sudokus/sudoku18. sud' 
im = array(Image.open(imname).convert('L')) 


+ 


查找 单元 格 边界 
x = find sudoku edges(im,axis=0) 
y = find sudoku edges(im,axis=1) 


# 裁剪 单元 格 并 分 类 
crops = [] 
for col in range(9): 
for row in range(9): 
crop = im[y[col]:y[col+1],x[row]:x[row+1] | 
crops.append(compute_feature(crop) ) 
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res = svm predict(loadtxt(vername) ,map(list, crops) ,m) [0] 
res im = array(res).reshape(9,9) 


print ‘Result:' 
print res im 


找到 边界 后 ， 从 每 一 个 单元 格 提取 出 crops。 将 裁剪 出 来 的 这 些 单元 格 传 给 同一 特 
征 提 取 函 数 ， 并 将 提取 出 来 的 特征 作为 训练 数据 保存 在 一 个 数组 中 。 通 过 loadtxt() 
读 取 数 独 图 像 的 真实 标记 ， 用 svm predict() 函数 对 这 些 特 征 癌 量 进行 分 类 ， 在 控制 
台 上 打印 出 的 结 采 应 该 为 : 


Accuracy = 100% (81/81) (classification) 


Result: 

[| Os: Ox Oe Oy 1s 7e Os 50 208] 
[ 9. 0. 3. 0. 0. 5. 2. 0. 7.4] 
[Os 0s On Os 0s Os 4.0, 0. 
[ Os 1. 6. 0. 0. 4. 0. 0. 2 ] 
[0 0s Oy. Ba 0s. 1 0s. 04.0, 
[ 8. 0. 0. 5. 0. 0. 6. 4. 0.] 
| Os, Ov Os. Os Os. On Oy. 04 0 
[ Te. 0 2 de Os 0. Ss. 0. Ge] 
[0 Sa Os 2 3. Os Os 0.051] 





1 FE set FL ED J ee 2 ts) A RR, te ee WOT — EE AY ie eh A BEATA, AIR 
AE WAAR Ata], LA Rear Ras EMBER HOT BL BE LR 


如 果 你 用 一 个 9x9 的 子 图 绘制 这 些 经 裁剪 后 的 单元 格 ， 它 们 应 该 和 图 8-7 GE) 类 似 。 




















| |1 7] [5 
9 3 | 5 |2 7 
| |4 
1 6 | 4 | 2 
|8 1 | 
8 |5 6 |4 
9 | | 
7 2 |1 |8 9 
5 2 3 | 
Number 26/10 Rating: Medium 











8-7; — MEHR AL SVAM KAMA HIS: 一 幅 数 独 网 格 图 像 ( 左 ); 9x9 裁剪 后 的 
图 像 ， 每 个 独立 单元 都 会 锌 送 到 OCR 分 类 器 中 ( 右 ) 





8.4.5 ”图 像 校正 


如 末 你 对 上 面 分 类 絮 的 性 能 还 算 满 间 ， 那 么 下 一 个 挑战 便 古 如 何 将 它 应 用 于 那些 没 
有 对 齐 的 图 像 。 这 里 我 们 将 用 一 种 简单 的 图 像 校正 方法 来 结束 本 章 数 独 图 像 识 别 的 
例子 ， 使 用 该 校正 方法 的 前 提 是 网 格 的 4 个 角 点 都 已 经 被 检测 到 或 者 手工 做 过 标记 。 
图 8-8 (Æ) 中 是 一 幅 在 进行 识别 时 受 角 度 影 响 剧 烈 的 图 像 。 


一 个 单 应 矩阵 可 以 像 上 面 的 例子 那样 映射 网 格 以 使 边 绿 能 够 对 齐 ， 我 们 这 里 所 要 做 
的 就 是 估算 该 变换 和 矩阵。 下面 的 例子 手工 标记 4 个 角 点 ， 然 后 将 图 像 变 换 为 一 个 
1000 x 1000 大 小 的 方形 图 像 : 


from scipy import ndimage 
import homography 


imname = 'sudoku8. jpg’ 
im = array(Image.open(imname).convert('L')) 


# 标记 角 点 
figure() 
imsshow(im) 
gray() 

x = ginput(4) 


# 左上 角 、 右 上 角 、 右 下 角 、 左 下 角 


fp = array([array([p[1],p[0],1]) for p in x]).T 
to = array (| 0y0;4.|(0. 100051.) :| 100071000, | T1000%0 1 | 


Hf EE Dy FADE 
H = homography.H from points(tp, fp) 





# 辅助 函数 ， 用 于 进行 几何 变换 
def warpfcn(x): 


< array xaxa] Ty 
XLS dot(H;x) 

xe = XT Kt? 

return xt[0],xt[1] 


# 用 全 透视 变换 对 图 像 进 行 变换 
im g = ndimage.geometric_transform(im,warpfcn, (1000, 1000) ) 


第 3 章 中 对 很 多 样本 图 像 进行 的 仿 射 变换 还 达 不 到 对 这 些 数 独 图 像 进行 校正 的 要 求 ， 这 
里 用 到 了 scipy.ndinmage 模块 中 一 个 更 加 普遍 的 变换 函数 geometric transform()， 该 函 
数 获 取 一 个 2D 到 2D 的 映射 ， 映 射 为 另 一 个 二 维 来 取代 变化 阜 阵 ， 所 以 我 们 需要 一 个 
辅助 函数 (该 例 中 用 一 个 三 角形 的 分 段 仿 射 变换 )， 变 换 后 的 图 像 如 图 8-8 中 右 图 所 示 。 
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图 8-8: 用 全 透视 变换 对 一 幅 图 像 进行 校正 的 例子 。 四 个 角 点 被 手工 标记 的 数 独 原 图 (42), 
变换 为 1000 x 1000 大 小 的 万 形 图 (6) 


这 就 是 整个 关于 数 独 图 像 识别 的 例子 。 其 中 还 有 很 多 可 以 改进 的 地 方 ， 及 一 些 待 调 
碍 的 识别 方案 。 下 面 的 练习 中 会 提 到 一 些 ， 剩 下 的 则 留 给 你 目 行 研究 。 


练习 


(1) KNN 分 类 絮 的 性 能 依赖 于 x 值 的 选择 。 试 着 改变 k 值 ， 看 分 类 精度 是 怎样 变化 
的 。 画 出 二 维 数据 集 的 决策 边界 ， 看 它们 是 怎样 变化 的 。 

(2) 图 8-3 中 的 手势 数据 库 文件 夹 complex/ 还 包含 背景 更 复杂 的 手势 图 像 。 试 着 在 
这 些 图 像 上 训练 出 一 个 分 类 絮 并 对 训练 出 的 分 类 如 进行 测试 。 它 们 在 性 能 上 有 什 
么 差异 ?” 你 能 够 对 图 像 拉 述 子 做 出 一 些 改进 吗 ? 

(3) 对 于 贝 叶 斯 分 类 器 ， 在 对 手势 识别 特征 进行 PCA 降 维 时 ， 试 着 改变 降 维 的 维 数 。 
哪 一 个 维 数 较 好 ? 画 出 奇异 值 8$， 画 出 的 曲线 如 图 8-9 所 示 ， 是 一 个 典型 的 膝 状 
曲线 。 在 训练 数据 生成 可 变性 能 力 和 保持 较 低 的 维 数 间 ， 一 个 较 好 的 折 中 是 在 图 
像 变 得 平缓 之 前 选取 一 个 恰当 的 维 数 。 

(4) 用 一 个 不 同 于 高 斯 分 布 的 概率 模型 修改 贝 叶 斯 分 类 器 ， 例 如 在 训练 集 上 对 于 每 个 
特征 使 用 频率 计数 ， 在 不 同 的 数据 集 上 和 高 斯 分 布 结果 进行 对 比 。 

(5) 用 非 线 性 SVM 对 于 手势 识别 问题 进行 实验 ， 比 如 选择 多 项 式 核 国 数 ， 并 用 -d 
参数 逐步 增加 多 项 式 的 阶 数 ， 观 察 在 训练 集 和 测试 集 上 分 类 性 能 的 变化 。 对 于 非 
线性 分 类 大， 存在 一 种 实在 的 风险 ， 即 在 某 个 特定 的 数据 集 上 ， 可 能 在 训练 集 上 
分 类 结果 很 好 ， 但 测试 集 上 分 类 结果 很 差 。 这 种 破坏 分 类 如 泛 化 能 力 的 现象 称 为 
过 拟 合 ， 我 们 应 该 避 开 这 种 风险 。 
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8-9: 练习 (3) 曲线 图 


(6) 试 着 在 数 独 字 符 识别 上 用 一 些 更 高 级 的 特征 辣 量 。 如 末 你 需要 灵感 ， 参 见 文献 [4]。 

(7) 实现 一 种 能 目 动 对 齐 数 独 网 格 的 方法 ， 例 如 试 着 用 RANSAC 进行 特征 检测 、 
进行 直线 检测 ， 或 从 scipy.ndimage (http://docs.scipy.org/doc/scipy/reference/ 
ndimage.html) 用 形态 学 和 训 量 操作 检测 这 些 单 元 格 。 另 外 ， 作 为 额外 的 任务 ， 
请 试 着 解决 查找 方 同 “向 上 ”的 旋转 不 确定 问题 。 比 如 ， 你 可 以 试 着 旋转 校正 后 
的 网 格 ， 并 以 OCR 分 类 器 的 分 类 准确 率 逻 出 最 佳 旋转 方 同 。 

(8) MNIST 手写 数字 数据 库 (http://yann.lecun.com/exdb/mnist) 是 一 个 比 数 独 数字 
图 像 库 更 具有 挑战 性 的 分 类 问题 。 试 着 提取 MNIST 数据 库 的 一 些 特征 ， 并 用 
SVM 对 该 数据 库 进 行 分 类 。 检 查 你 所 获得 的 分 类 准确 率 和 已 知 的 最 佳 分 类 方法 
(有 些 方法 出 奇 得 好 ) 之 间 差 距 。 

(9) 如 末 你 想 更 深入 地 了 解 分 类 絮 和 机 如 学 习 算 法 ， 可 以 参阅 scikit.learn 包 
(http://scikit-learn.org/)， 然 后 在 本 草 的 数据 库 上 尝试 其 中 的 一 些 算法 。 
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图 信 分 害 








图 像 分 割 是 将 一 幅 图 像 分 割 成 有 意义 区 域 的 过 程 。 区 域 可 以 下 图 像 的 前 景 与 育 景 或 
图 像 中 一 些 单 独 的 对 象 。 这 些 区 域 可 以 利用 一 些 诸如 颜色 、 边 界 或 近邻 相似 性 等 特 
征 进行 构建 。 本 草 中 ， 我 们 将 看 到 一 些 不 同 的 分 割 技术 。 


9.1 RJ (Graph Cut) 

obras (graph) 是 由 若干 节点 (有 时 也 称 顶点 ) 和 连接 节点 的 边 构成 的 集合 
9-1 给 出 了 一 个 示例 '。 边 可 以 是 有 向 的 (图 9-1 中 用 箭头 示 出 ) 或 无 向 的 ， 并且 

pei E 有 与 它们 相关 联 的 权重 。 





9-1: 用 python-graph 工具 包 创建 的 一 个 简单 有 向 图 





注 1: 2.3 而 中 也 出 现 过 图 。 这 次 我 们 要 使 用 图 进行 图 像 分 割 。 
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图 割 是 将 一 个 有 问 图 分 割 成 两 个 互 不 相交 的 集合 ， 可 以 用 来 解决 很 多 计算 机 视觉 方 
面 的 问题 ， 诸 如 立体 深度 重建 、 图 像 拼 接 和 图 像 分 割 等 计算 机 视 览 方面 的 不 同 癌 题 。 
从 图 像 像素 和 像素 的 近邻 创建 一 个 图 并 引入 一 个 能 量 或 “代价 ”函数 ， 我 们 有 可 能 
利用 图 割 方法 将 图 像 分 割 成 两 个 或 多 个 区 域 。 图 割 的 基本 思想 征 ， 相 似 且 彼此 相近 
的 像 桑 应 该 划分 到 同一 区 域 。 


图 割 CC 是 图 中 所 有 边 的 集合 ) 的 “代价 ”函数 定义 为 所 有 制 的 边 的 权重 求 合 相 加 : 





aa N (9.1) 


(i j)EC 
wy 古 图 中 市 点 i 到 市 点 j 的 边 (i, j) 的 权重 ， 并 且 是 对 割 C 所 有 的 边 进行 求 和 。 
图 制图 像 分 割 的 思想 是 用 图 来 表示 图 像 ， 并 对 图 进行 划分 以 使 制 代价 E 好 小。 在 


用 图 表示 图 像 时 ， 增 加 两 个 额外 的 市 态 ， 即 源 点 和 汇 点 ， 并 仅 壮 虑 那些 将 源 点 和 汇 
点 分 开 的 割 。 





寻找 最 小 着 (minimum cut 或 min cut) 等 同 于 在 源 点 和 汇 点 间 寻 找 最 大 流 (maximum 
flow 或 max flow)， 详 见 文 献 [2]。 些 外， 很 多 有 效 的 算法 都 可 以 解决 这 些 最 大 流 / 
最 小 割 问 题 。 


我 们 在 图 割 例 子 中 将 采用 python-graph 工具 包 ， 该 工具 包 包 含 了 许多 非常 有 用 的 图 
算法 ， 你 可 以 在 http://code.google.com/p/python-graph/ 下 载 该 工具 包 并 查看 文档 。 
随后 的 例子 里 ， 我 们 要 用 到 maximum_flow() 国 数 ， 该 国 数 用 Edmonds-Karp 算法 
(http://en.wikipedia.org/wiki/Edmonds-Karp_algorithm) 计算 最 大 流 / 最 小 割 。 采 用 
一 个 完全 用 Python 写成 工具 包 的 好 处 是 安装 容易 且 兼 容 性 民 好 ;不足 是 速度 较 慢 。 
不 过 ， 对 于 小 尺寸 图 像 ， 该 工具 包 的 性 能 足以 满足 我 们 的 需求 ， 对 于 较 大 的 图 像 ， 
需要 一 个 更 快 的 实现 。 


这 里 给 出 一 个 用 python-graph 工具 包 计 算 一 幅 较 小 的 图 的 最 大 流 /最 小 割 的 简单 例子 : 




















from pygraph.classes.digraph import digraph 
from pygraph.algorithms.minmax import maximum flow 


gr = digraph() 
gr.add nodes([0,1,2,3]) 


gr.add edge((0,1), wt=4) 
gr.add edge((1,2), wt=3) 
gr.add edge((2,3), wt=5) 
gr.add edge((0,2), wt=3) 





注 1: http://en.wikipedia.org/wiki/Max-flow_min-cut_theorem 上 有 相同 的 图 作为 例子 。 
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gT.add edge((1,3), wt=4) 


flows,cuts = maximum flow(gr, 0,3) 
print ‘flow is:', flows 
Print wut los. cuts 


aot, 创建 有 4 个 市 点 的 有 问 图 ，4 个 市 点 的 索引 分别 0...3， 然 后 用 add edge() 增 
添 边 并 为 每 条 边 指 定 特定 的 权重 。 边 的 权重 用 来 衡量 边 的 最 大 流 容量 。 以 节点 0 为 
源 点 、3 为 汇 点 ， 计 算 最 大 流 。 打 印 出 流 和 制 结果 : 

Fow Te AOs A Ae (to ZE Be ds aa aa Or Des 3 

CUE se 770 Os. "15 23.15 3 at 


上 面 两 个 python 字典 包含 了 流 穿 过 每 条 边 和 每 个 节点 的 标记 : 0 是 包含 图 源 点 的 部 
D, 是 与 汇 点 相连 的 节点 。 你 可 以 手工 验证 这 个 割 确实 是 最 小 的 。 参 见 图 9-1, 


9.1.1 MAREE E 

25 EP AB, RRMA AAR RAEA DRE XLT A. KERIB 
中 讨论 最 简单 的 像素 四 邻 域 和 两 个 图 像 区 域 〈 前 景 和 背景 ) 情况 。 一 个 四 邻 域 
(4-neighborhood) 指 一 个 像素 与 其 正 上 方 、 正 下 方 、 左 边 、 右 边 的 像素 直接 相连 。 


除了 像素 证 护 外 ， 我 们 还 知 要 两 个 特定 鸭 市 尽 一 一 源 所 和 汇 点 ,来 分 别 代表 
图 像 的 前 景 和 背景 。 我 们 将 利用 一 个 简单 的 模型 将 所 有 像素 与 源 点 、 汇 点 连接 起 来 。 
下 面 给 出 创建 这 样 一 个 图 的 步 又: 

。 每 个 像素 革 氮 都 有 一 个 从 源 扣 的 传人 辽 ， 


过 
。 每 个 像素 习 扩 都 有 一 个 到 汇 点 的 传 出 边 ， 
。 每 个 像素 习 点 都 有 一 条 传人 边 和 传 出 边 连接 到 它 的 近邻 。 


为 确定 边 的 权重 ， 需 要 一 个 能 够 确定 这 些 像素 点 之 间 ， 像 素 点 与 源 点 、 汇 点 之 间 边 
的 权重 (表示 那 条 边 的 最 大 流 ) 的 分 割 模型 。 与 前 面 一 样 ， 像 素 i 与 像素 j 之 间 的 边 
的 权重 记 为 w WARRE i 的 权重 记 为 wio RR i BULA ILA Wo 


让 我 们 先 回 顾 一 下 8.2 市 中 在 像素 颜色 值 上 用 杆 素 贝 叶 斯 分 类 如 进行 分 类 的 知识 。 假 定 
我 们 已 经 在 前 景 和 背景 像素 (从 同一 图 像 或 从 其 他 的 图 像 ) 上 训练 出 了 一 个 贝 叶 斯 分 
Bat, BAA AAS A Se LP RES pd) F pd) KE, LRR i AMEE. 


现在 我 们 可 以 为 边 的 权重 建立 如 下 模型 : 





























HE 1: 男 一 个 第 见 的 选择 是 八 邻 域 ， 它 把 对 角 上 的 像素 也 连结 起 来 了 。 
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pr (I) 


We 
pr (i) + pall) 

w, = Pal) 
pr (5) + pall) 

w= K el -LiPle 





利用 该 模型 ， 可 以 将 每 个 像素 和 前 景 及 背景 CUAL) 连接 起 来 ， 权 重 等 于 上 
面 归 一 化 后 的 概率 。vw 描述 了 近邻 辣 像素 的 相似 性 ， 相 似 像 素 权 重 趋 近 于 k， 不 相 
似 的 趋 近 于 0。 参 数 表征 了 随 着 不 相似 性 的 增加 ， 指 数 次 需 袁 减 到 0 的 快慢 。 
创建 一 个 名 为 graphcut.py 的 文件 ， 将 下 面 从 一 幅 图 像 创建 图 的 函数 写 入 该 文件 中 : 


from pygraph.classes.digraph import digraph 
from pygraph.algorithms.minmax import maximum flow 


import bayes 
def build bayes graph(im,1abels,sigma=1e2,kappa=2): 


"e 从 像素 四 邻 域 建立 一 个 图 ， 前 景 和 背景 (前景 用 1 标记， 背景 用 -1 标记 ， 
其 他 的 用 0 标记 ) 由 labels 决定 ， 并 用 朴素 贝 叶 斯 分 类 器 建 模 """ 





m,n = im.shape|[ :2] 


# 每 行 是 一 个 像素 的 RGB ME 
vim = im.reshape((-1,3)) 





# 前 景 和 背景 (RGB) 

foreground = im[labels==1].reshape((-1, 3)) 
background = im[labels==-1].reshape((-1,3)) 
train data = [ foreground, background] 


# WIAA Se WT ad Rat 
bc = bayes.BayesClassifier() 
bc.train(train data) 


# 获取 所 有 像素 的 概率 
bc_lables,prob = bc.classify(vim) 
prob fg = prob[0] 

prob bg = prob[1] 


# 用 mxn+2 个 市 点 创建 图 
gr = digraph() 
gr.add nodes(range(m*n+2)) 





source = m*n # 倒数 第 二 个 是 源 点 
sink = m*n+1 # 最 后 一 个 节点 是 汇 点 


相同 二 
for i in range(vim.shape[0]): 
vim[i] = vim[i] / linalg.norm(vim[i]) 


tin AAA, FRIMA 
for i in range(m*n): 
# 从 源 点 添加 边 
gr.add edge((source,i), wt=(prob fg[i]/(prob fg[i]+prob bg[i]))) 


# IL aS 
gr.add edge((i,sink), wt=(prob_bg[i]/(prob fg[i]+prob bg[i]))) 


# IAFL SDs AAS I 

if i%n l= 0: # 左 边 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i-1])**2)/sigma) 
gT.add edge((i,i-1), wt=edge wt) 

if (i+1)%n l= 0: # 如 果 右 边 存 在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i+1])**2)/sigma) 
gr.add edge((i,i+1), wt=edge wt) 

if i//n != 0: 如 果 上 方 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i-n])**2)/sigma) 
gr.add edge((i,i-n), wt=edge wt) 

if i//n != m-1: # 如 果 下 方 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i+n])**2)/sigma) 
gr.add edge((i,it+n), wt=edge wt) 


return gr 


这 里 我 们 用 到 了 用 1 标记 前 景 训练 数据 、 用 -1 标记 背景 训练 数据 的 一 幅 标 记 图 像 。 
基于 这 种 标记 ， 在 RGB 值 上 可 以 训练 出 一 个 朴素 贝 叶 斯 分 类 左 ， 然 后 计算 每 一 像 
素 的 分 类 概率 ， 这 些 计算 出 的 分 类 概率 便 是 从 源 点 出 来 和 到 汇 点 去 的 边 的 权重 ， 由 
此 可 以 创建 一 个 市 点 为 nxXm+2 的 图 。 注 意 源 点 和 汇 点 的 索引 ， 为 了 简化 像素 的 索 


51|， 我 们 将 最 后 的 两 个 索引 | 作为 源 扣 和 汇 点 的 过 51。 


为 了 在 图 像 上 可 视 化 覆盖 的 标记 区 域 ， 我 们 可 以 利用 contourf() 国 数 填充 图 像 (这 





里 指 市 标记 图 像 ) 等 高 线 间 的 区 域 ， 参 数 alpha 用 于 设置 透明 度 。 将 下 面 国 数 增 加 


到 graphcut.py 中 : 


def show labeling(im, labels): 





""" 显示 图 像 的 前 景 和 背景 区 域 。 前 景 labels=1, 背景 labels=-1, fh labels = 0 """ 





imshow(im) 

contour(labels,[-0.5,0.5]) 
contourf(labels,[-1,-0.5],colors='b' ,alpha=0. 25) 
contourf(labels,[0.5,1],colors='r',alpha=0.25) 
axis('off') 








图 建立 起 来 后 便 需 要 在 节 优 位 置 对 图 进行 分 割 。 下 面 这 个 国 数 可 以 计算 最 小 割 并 将 
和 输出 结 东 重 新 格式 化 为 一 个 市 像素 标记 的 二 值 图 像 : 





def cut_graph(gr, imsize): 
“" 用 最 大 流 对 图 gr 进行 分 割 ， 并 返回 分 制 结果 的 二 值 标记 """ 


m,n = imsize 
source = m*n # 倒数 第 二 个 节点 是 源 点 
sink = m*n+1 # 倒数 第 一 个 是 汇 点 





# 对 图 进行 分 割 
flows,cuts = maximum flow(gr, source, sink) 





# 将 图 转 为 带 有 标记 的 图 像 

res = zeros(m*n) 

for pos,label in cuts.items()[:-2]: # 不 要 添加 源 点 / 汇 点 
res[|pos] = label 


return res.reshape((m,n)) 


wid ee FE ORE RUA ALL RA 8 D Bee RAR TE A TA KR TRER, 
FER [Bl oy GAS ZH EO ay RET reshape() 操作 。 割 以 字典 返回 ， 需 要 将 它 
复制 到 分 割 标 记 图 像 中 ， 这 通过 返回 列表 (E, E) 的 .item() 方法 完成 。 这 里 我 
们 再 一 次 略 过 了 列表 中 最 后 两 个 元 率 。 


现在 让 我 们 看 看 怎 冬 利用 这 些 国 数 来 分 割 一 幅 图 像 。 下 面 这 个 例子 会 谈 取 一 幅 图 像 ， 
从 图 像 的 两 个 矩形 区 域 估算 出 类 概率 ， 然 后 创建 一 个 图 : 





from scipy.misc import imresize 
import graphcut 


im = array(Image.open('empire.jpg' ) ) 
im = imresize(im,0.07,interp='bilinear' ) 
size = im.shape|[ :2] 


# 添加 两 个 矩形 训练 区 域 
labels = zeros(size) 
labels[3:18,3:18] = -1 





labels[-18:-3,-18:-3] = 1 


# 创建 图 
g = graphcut.build bayes graph(im,1abels,kappa=1) 


# 对 图 进行 分 割 
res = graphcut.cut_graph(g,size) 


figure() 
graphcut.show labeling(im, labels) 


figure() 
imshow(res) 


gray() 
axist off) 


show() 


我 们 利用 了 imresize() 图 数 使 图 像 小 到 适合 我 们 的 Python graph 库 ;， 在 该 例 中 将 图 
像 统 一 缩放 到 原 图 像 尺 寸 的 7%。 图 分 割 后 将 结果 和 训练 区 域 一 起 画 出 来 。 图 9-2 中 
图 像 履 盖 区 域 为 训练 区 域 并 显示 出 了 最 终 的 分 割 结果 。 


图 9-2: 利用 贝 叶 斯 概率 模型 进行 图 割 分 割 。 图 像 降 采样 (downsample) 到 54 x 38 AN, 
用 于 模型 训练 的 标记 图 像 (E); 在 待 分 割 图 像 上 显示 训练 区 域 (P); 分 割 的 结果 (6) 


变量 kappa (方程 中 的 K) 决定 了 近邻 像素 间 边 的 相对 权重 。 改 变 玉 值 分 割 的 效 末 
如 图 9-3 所 示 ; 随 着 K 值 增 大 ,分 割 边 界 将 变 得 更 平 消 ， 并 且 细 广 部 分 也 逐步 丢失 。 
你 可 以 根据 目 己 应 用 的 需要 及 想 要 获得 的 结 霖 类 型 来 选择 合适 的 KK 值 。 
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(a) (b) (c) (d) 


9-3: 改变 像素 相似 性 和 类 概率 之 间 相 对 权重 对 分 割 结果 的 影响 ， 采 用 的 分 割 方法 与 图 9-2 
相同 : (a) k=1, (b) k=2, (c) k=5, (d) k=10 











91.2 AABN 

利用 一 些 方法 可 以 将 图 割 分 割 与 用 户 交 互 结合 起 来 。 例 如 ， 用 户 可 以 在 一 幅 图 像 上 
为 前 景 和 背景 提供 一 些 标 记 。 男 一 种 方法 是 利用 边界 框 (bounding box) 或 “lasso” 
工具 选择 一 个 包含 前 景 的 区 域 。 


让 我 们 来 看 最 后 一 个 例子 ， 其 中 用 到 了 来 目 微软 剑桥 研究 院 Grab Cut 数据 集 的 一 些 
图 像 ， 详 见 文献 [27] 和 附录 B.S. 

这 些 图 像 还 提供 了 用 来 评价 分 割 性 能 的 真实 标记 ， 还 有 模拟 用 户 选 择 算 形 图 像 区 域 
或 用 “lasso” 之 类 的 工具 来 标记 前 景 和 背景 的 标注 信息 。 我 们 可 以 利用 这 些 用 户 提 
供 的 输入 来 得 到 训练 数据 ， 并 以 用 户 输 入 为 导向 用 切 制 对 图 像 进 行 分 割 |。 


将 用 户 输 入 编码 成 具有 下 面 意 义 的 位 图 图 像 : 














像素 值 a 
0, 64 背景 
128 未 知 
255 前 景 


这 里 给 出 一 个 完整 的 示例 代码 ， 它 会 载 入 一 幅 图 像 及 对 应 的 标注 信息 ， 然 后 将 其 传 
递 到 我 们 的 图 割 分 割 路 径 中 : 
from scipy.misc import imresize 


import graphcut 


def create msr labels(m, lasso=False): 





”从 用 户 的 注释 中 创建 用 于 训练 的 标记 和 撼 阵 "” 


labels = zeros(im.shape[ :2]) 
# 背景 

labels[m==0] = -1 
labels[m==64] = -1 


# 前 景 
if lasso: 
labels[m==255 | 
else: 
labels [m==128 | 


II 
m. 


II 
m 


return labels 


# 载 和 图像 和 注释 图 
im = array(Image.open('376043.jpg')) 
m = array(Image.open('376043.bmp' )) 


# 调整 大 小 

scale: S01 

im = imresize(im, scale, interp='bilinear' ) 
m = imresize(m,scale, interp='nearest' ) 


# 创建 训练 标记 


labels = create msr labels(m,False) 


# 用 注释 创建 图 


g = graphcut.build bayes graph(im,1abels,kappa=2) 


# 图 割 | 
res = graphcut.cut graph(g,im.shapel[:2]) 


res[m==64] = 1 


# 绘制 分 割 结 采 
figure() 
imshow(res ) 


gray() 
xCiekstL 


yticks([]) 
savefig('labelplot.pdf') 
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首先 ， 我 们 定义 一 个 辅助 函数 用 以 读 取 这 些 标 注 图 像 ， 格 式 化 这 些 标注 图 像 便于 将 
其 传递 给 背景 和 前 景 训练 模型 函数 ， 和 矩形 框 中 只 包 仿 背景 标记 。 在 本 例 中 ， 我 们 设 
置 前 景 训练 区 域 为 整个 “未 知 的 ”区 域 ( 算 形 内 部 )。 下 一 步 我 们 创建 图 并 分 割 。 由 
于 有 用 户 输 入 ， 所 以 我 们 移 除 那些 在 标记 背景 区 域 里 有 任何 前 景 的 结果 。 最 后 ， 我 
们 绘制 出 分 割 结 琳 ， 并 通过 设置 这 些 勾 选 标记 到 一 个 空 列表 来 移 去 这 些 义 选 标 记 。 
这 样 我 们 就 可 以 得 到 一 个 很 好 的 边框 (否则 ， 图 像 中 的 边界 在 淋 白 图 中 很 难看 到 )。 


9-4 显示 了 利用 RGB 回 量 作为 原始 图 像 的 特征 进行 分 割 的 一 些 结 采 ， 一 个 下 采样 
掩 膜 和 下 采样 分 割 结 末 。 右 边 的 图 像 征 通过 上 面 的 脚本 生成 的 图 线 。 














RS 




















9-4: 利用 Grab cut 数据 集中 的 图 像 进行 图 割 分 割 的 结果 : 经 过 下 采样 后 的 原始 图 像 ( 左 ); 
用 于 训练 的 掩 膜 (中 间 ) ; (6) 将 用 RGB 像素 值 作 为 特征 向 量 进 行 分 割 后 的 结 


>L. * i, ri 
9.2 利用 聚 关 进 行 分 割 
上 一 市 的 图 荐 问题 通过 在 图 像 的 图 上 利用 最 大 流 / 最 小 割 找到 了 一 种 离散 解决 方案 。 
在 本 市 ， 我 们 将 看 到 另外 一 种 分 割 图 像 图 的 方法 ， 即 基于 谱 图 理论 的 归 一 化 分 割 算 
法 ， 它 将 像 系 相 似 和 空间 近似 结合 起 来 对 图 像 进行 分 割 。 














该 方法 来 目 定 义 一 个 分 割 损 失 畏 数 ， 该 损失 国 数 不 仅 考 碟 了 组 的 大 小 而 且 还 用 划分 
的 大 小 对 该 损失 函数 进行 “ 归 一 化 ”。 该 归 一 化 后 的 分 割 公 式 将 方程 (9.1) 中 分 割 
损失 函数 修改 为 : 





AMI BRAT HE, HEALS AM BHA (RAE “IA 
化 ”这 里 指 图 像 像 素 ) 的 权重 求 和 相 加 ， 相 加 求 和 项 称 为 association。 对 于 那些 像 
素 与 其 他 像素 具有 相同 连接 数 的 图 像 ， 它 是 对 划分 大 小 的 一 种 粗糙 度量 方式 。 文 献 
[32] 介绍 了 上 面 的 损失 国 数 与 寻找 极 小 值 算 法 。 该 算法 是 针对 两 类 分 割 问题 衍生 出 
来 的 ， 将 在 下 面 进行 讲解 。 

定义 夯 为 边 的 权重 矩阵 ， 算 阵 中 的 元 素 w 为 连接 像素 i 和 像素 j 边 的 权重 。D 为 对 


丈 每 行 元 系 求 和 后 构成 的 对 角 怎 阵 ， 即 D=diag(4d)，4 = > wj (和 6.3 市 中 一 样 )。 
归 一 化 分 割 可 以 通过 节 小 化 下 面 的 优化 问题 而 求 得 : 











min Aa W)y 
y y Dy 
器 量 y 包 含 的 是 离散 标记 ， 这 些 离 散 标 记 满 足 对 于 5 为 常数 yyE {1,-5} (Bly Ray 
以 取 这 两 个 值 ) 的 约束 ，yD 求 和 为 0。 由 于 这 些 约束 条 件 ， 该 问题 不 太 容 易 求解 。 


然而 ， 通 过 松弛 约束 条 件 并 让 y 取 任 意 实 数 ， 该 问题 可 以 变 为 一 个 容 多 求解 的 特征 
分 解 问 题 。 这 样 求解 的 缺点 是 你 需要 对 和 输出 设 定 装 值 或 进行 聚 类 ， 使 它 重 新 成 为 一 
AARD 


松弛 该 回 题 后 ， 该 问题 便 成 为 求解 拉 普 拉 斯 矩阵 特征 癌 量 问题 : 





L Z DY wp” 


正如 谱 聚 类 情形 一 样 ， 现 在 的 难点 是 如 何 定义 像素 间 边 的 权重 w。 归 一 化 割 与 谱 聚 
类 有 很 多 相似 之 处 ， 并 且 基 础 理论 有 所 重 登 ， 具体 解释 及 细 广 参阅 文献 [32]。 
我 们 利用 原始 归 一 化 割 论文 [32] 中 的 边 的 权重 ， 通 过 下 式 给 出 连接 像素 i 和 像素 j 
的 边 的 权重 : 

wW; = eA: els- /oe 


式 中 第 一 部 分 度量 像素 1; 和 了 之 间 的 像素 相似 性 ，1(7) 定义 为 RGB 癌 量 或 灰 度 值 ， 


TE 1: 事实 上 ， 这 是 一 个 NP 问题 。 
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第 二 部 分 度量 图 像 中 x, 和 x, 的 接近 程度 ，x(c) 定义 为 每 个 像素 的 坐标 矢量 ， 缩 放 因 
T o, 和 四 决定 了 相对 尺度 和 每 一 部 件 趋 近 0 的 快慢 。 


让 我 们 看 看 这 在 代码 中 如 何 体现 ， 将 下 面 的 函数 添加 到 名 为 ncut.py 的 文件 中 : 











def ncut_graph_matrix(im,sigma d=1e2,sigma g=1e-2): 
"" 创建 用 于 归 一 化 割 的 矩阵， 其 中 sigma d 和 sigma g 是 像素 距离 和 像素 相似 性 的 权重 参数 """ 


m,n = im.shape|[ :2] 
N = m*n 





# 归 一 化 ， 并 创建 RGB 或 灰 度 特征 向 量 
if len(im.shape)== 
for i in range(3): 
TM ol HS A | Pati ete mea) 
vim = im.reshape((-1,3)) 
else: 
im = im / im.max() 
vim = im.flatten() 





E x,y 坐标 用 于 距离 计算 
xx,yy = meshgrid(range(n),range(m)) 
x,y = xx.flatten(),yy.flatten() 


# 创建 边线 权重 矩阵 
W = zeros((N,N),'f') 
for i in range(N): 
for j in range(i,N): 
d = (x[i]-x[j])**2 + (y[i]-y[j])**2 
W[i,j] = WEj,i] = exp(-1.0*sum((vim[i]-vim[j])**2)/sigma_g) * exp(-d/sigma d) 


return W 


ee 并 利用 输入 的 彩色 图 像 RGB 值 或 灰 度 图 像 的 灰 度 值 创 建 一 

千 征 问 量 。 由 于 边 的 权重 包含 了 距离 部 件 ， 对 于 每 个 像素 的 特征 癌 量 ， 我 们 利用 
和 函数 来 获取 x 和 yy (EL, PASTA RELATE NTR EDD, FETE NX NIA 
AEREE 万 中 填充 值 。 


我 们 可 以 顺序 分 割 每 个 特征 向 量 或 获取 一 些 特征 向 量 对 它们 进行 聚 类 来 计算 分 割 结 
Ke. 这 里 wy 它 不 需要 修改 任意 分 割 数 也 和 全 SEALE. RE an Ee hi TFB 
E 并 在 一 起 构成 矩阵 W, FAN ERR E 

聚 类 。 下 面 国 数 实现 了 该 聚 类 过 程 ， 可 以 看 到 ， 它 和 6.3 节 的 谱 聚 类 例子 几乎 是 
ny 











from scipy.cluster.vq import * 


def cluster(S,k,ndim): 
""" 从 相似 性 矩阵 进行 谱 聚 类 """ 


# 检查 对 称 性 
if sum(abs(S-S.T)) > 1e-10: 
print ‘not symmetric’ 


# 创建 拉 普 拉 斯 矩阵 


rowsum = sum(abs(S),axis=0) 





D = diag(1 / sqrt(rowsum + 1e-6)) 
Ls dott); dot Dh 


# 计算 L 的 特征 癌 量 
U,sigma,V = linalg.svd(L) 


# 从 前 ndim 个 特征 癌 量 创建 特征 问 量 
# 堆 营 特 征 问 量 作为 矩阵 的 列 
features = array(V[:ndim]).T 


# K-means RÆ 

features = whiten(features ) 
centroids,distortion = kmeans(features ,k) 
code,distance = vq(features, centroids) 


return code,V 


这 里 我 们 采用 基于 特征 向 量 图 像 值 的 K-mean 聚 类 算法 (细节 参见 61) 对 像素 
进行 分 组 。 如 果 你 想 对 该 结果 进行 实验 ， 可 以 采用 任 一 聚 类 算法 或 分 组 准则 。 


现在 我 们 可 以 利用 该 算法 在 一 些 样 本 图 像 上 进行 测试 。 下 面 的 脚本 展示 了 一 个 完整 
的 例子 : 





import ncut 
from scipy.misc import imresize 


im = array(Image.open('C-uniform03.ppm' ) ) 
m,n = im.shape[:2]| 





# 调整 图 像 的 尺寸 大 小 为 (wid,wid) 

wid = 50 

rim = imresize(im, (wid,wid), interp='bilinear' ) 
rim = array(rim, 'f') 
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# 创建 归 一 化 割 和 矩阵 


A = ncut.ncut graph matrix(rim,sigma d=1,sigma g=1e-2) 


# 聚 类 
code,V = ncut.cluster(A,k=3,ndim=3) 


# 变换 到 原来 的 图 像 大 小 


codeim = imresize(code.reshape(wid,wid),(m,n),interp='nearest' ) 


# 绘制 分 割 结 东 
figure() 
imshow(codeim) 


gray() 
show() 


因为 Numpy 的 Linanlg.svd() 国 数 在 处 理 大 型 矩阵 时 的 计算 速度 并 不 够 快 《 有 时 对 
于 太 大 的 矩阵 其 至 会 给 出 不 准确 的 结果 )， 所 以 这 里 我 们 重新 设 定 图 像 为 一 固定 尺 
寸 (在 该 例 中 为 50 x 50), 以便 更 快 地 计算 特征 问 量 。 在 重新 设 定 图 像 大 小 的 时 候 
我 们 采用 了 双 线 性 插值 法 ， 因 为 不 想 插入 类 标记 ， 所 以 在 重新 调整 分 割 结 末 标 记 图 
像 的 尺寸 时 我 们 采用 近邻 插值 法 。 注 意 ， 重 新 调整 到 原 图 像 尺 寸 大 小 后 党 一 次 利用 
reshape 方法 将 一 维和 矩阵 变换 为 (widq，wid) 二 维 数组 。 


在 该 例 中 ， 我 们 用 到 了 静态 手势 (Static Hand Posture) 数据 库 ( 详 见 8.1) WA 
幅 手 势 图 像 ， 并 且 聚 类 数 大 设置 为 3。 分 割 结 果 如 图 9-5 所 示 ， 取 前 4 个 特征 向量 。 

















图 9-5: 利用 归 一 化 分 割 算法 分 割 图 像 : 原始 图 像 和 三 类 分 割 结 果 (上) ， 图 相似 息 阵 的 前 4 
个 特征 向 量 (下 ) 





例子 中 的 特征 同 量 以 数组 天 返回， 可 以 通过 下 面 的 代码 可 视 化 为 图 像 : 
imshow(imresize(V[i].reshape(wid,wid),(m,n),interp=' bilinear’ )) 
它 以 原 图 像 尺 寸 将 特征 问 量 i 显示 为 一 幅 图 像 。 


9-6 是 一 些 利 用 上 面 脚本 进行 分 割 的 示例 。 飞 机 图 像 来 源 于 Caltech 101 数据 库 中 
的 飞机 类 。 在 这 些 例子 中 ， 我 们 保持 参数 o, Flo, 与 上 面 一 致 ， 改 变 这 两 个 参数 的 
值 可 以 得 到 更 平 请 、 更 规则 的 结果 和 不 同 的 特征 向 量 图 像 。 我 们 将 这 个 实验 留 给 你 

















图 9-6: 利用 规范 化 分 割 算 法 对 两 类 图 像 分 割 示例 : 原始 图 像 (AW), 分割 结果 (OW) 


和 注意， 即使 对 于 这 些 相 对 简单 的 例子 ， 对 图 像 进行 国 值 处 理 不 会 给 出 相同 的 结案 ， 
对 RGB 值 或 灰 度 值 进行 容 类 也 一 样 ， 原 因 古 它们 都 没有 旁 虑 像素 的 近邻 。 
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9.3 Bai 

在 本 书 中 有 很 多 利用 最 小 化 代价 函数 或 能 量 函 数 来 求解 计算 机 视觉 问题 的 例子 ， 如 
前 面 章节 中 在 图 中 最 小 化 割 ， 我 们 同样 可 以 看 到 诸如 ROF 降 噪 、K-means 和 SVM 
的 例子 ， 这 些 都 是 优化 问题 。 


当 优 化 的 对 象 是 国 数 时 ， 该 问题 称 为 变 分 问题 ， 解 决 这 类 问题 的 算法 称 为 变 分 法 。 
我 们 看 一 个 简单 而 有 效 的 变 分 模型 。 

Chan-Vese 分 割 模型 [6] 对 于 竺 分割 图 像 区 域 假定 一 个 分 厂 背 数 图 像 模 型 。 这 里 我 们 
集中 关注 两 个 区 域 的 情形 ， 比 如 前 景 和 和 背景， 不 过 这 个 模型 也 可 以 拓展 到 多 区 域 ， 
比如 文献 [38] 中 的 例子 。 我 们 接 下 来 对 该 模型 进行 描述 。 

如 采 我 们 用 一 组 曲线 工 将 图 像 分 离 成 两 个 区 域 2 和 9， 如 图 9-7 所 示 ， 分 割 是 通 
过 最 小 化 Chan-Vese 模型 能 量 男 数 给 出 的 : 











E(T) = å length (T) + | (I—c)?dx + | (I—c)*dx 


该 能 量 函 数 用 来 度量 与 内 部 平均 灰 度 常数 c, POY DP YA BE BL cy 的 偏差 。 这 里 这 
两 个 积分 是 对 各 目 区 域 的 积分 ,分 离 曲线 T 工 的 长 度 用 以 选择 更 平 消 的 方案 。 











9-7: 分 片 常数 Chan-Vese 分 割 模型 


由 分 片 党 数 图 像 U=X,c thc, 我 们 可 以 将 上 式 重 写 为 : 


ET) = AS! f\vulax+|r- UF 


Xi All yo AEP EK O, Q 的 特征 (指示) 函数 '。 该 变换 意义 重大 ， 要 求 一 些 并 不 需 
要 理解 的 复杂 数学 运算 ， 并 且 已 超出 本 书 的 讲述 范围 。 


注 1: 区 域内 特征 函数 为 1， 区 域外 特征 函数 为 0。 
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如 果 用 Alce) 替换 ROF 方程 (1.1) 中 的 4， 则 该 方程 与 ROF 方程 (1.1) 的 形式 一 致 ， 
唯一 的 区 别 在 于 ， 我 们 Chan-Vese 模型 中 在 寻找 一 幅 具 有 分 片 常 数 的 图 像 V。 对 
ROF 方案 进行 间 值 处 理 可 以 给 出 一 个 好 的 极 小 值 ， 感 兴趣 的 读者 可 以 在 文献 [8] 中 
4 [be] 213 o 


最 小 化 Chan-Vese 模型 现在 转变 成 为 设 定 国 值 的 ROF 降 噪 问题 
import rof 


im = array(Image.open('ceramic-houses t0.png').convert("L")) 
U,T = rof.denoise(im, im, tolerance=0.001) 
t = 0.4 # 国 值 


import scipy.misc 
scipy.misc.imsave('result.pdf',U < t*U.max()) 


在 该 示例 中 ， 为 确保 得 到 足够 的 迭代 次 数 ， 我 们 调 低 ROF 迭代 终止 时 的 容忍 辆 值 。 
图 9-8 显示 了 两 幅 难 以 分 制图 像 的 分 割 结 果 。 














ais ae | \yaham anna 
> TT 


OTT 


YE 


图 9-8: 利用 ROF 降 品 最 小 化 Chan-Vese 模型 的 一 些 图 像 分 割 示例 : (a) 为 原始 图 像 ，(b) 
为 经 过 ROF 降 噪 后 的 图 像 ，(c) 为 最 终 分 割 结 
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练习 


(1) 通过 减少 边 的 数目 可 以 加 速 图 割 优 化 计算 ;文献 [16] 的 4.2 区 描述 了 图 的 构建 过 
程 。 对 其 进行 实验 并 在 图 不 同 的 大 小 下 度量 其 差异 ， 以 及 对 分 割 时 间 的 影响 ， 并 
与 我 们 之 前 用 到 的 较 人 简单 图 结构 进行 比较 。 

(2) 创建 一 个 用 户 接 口 或 模拟 用 户 先 择 区 域 来 进行 图 割 ， 然 后 通过 给 一 些 较 大 的 值 设 
置 权 重 尝 试 “ 硬 编码 ”背景 和 前 景 。 

(3) 在 图 割 时 将 RGB 特征 同 量 换 成 别 的 特征 摘 述 子 ， 你 能 以 此 改进 分 割 结 采 吗 ? 

(4) 用 图 割 方法 将 当前 分 割 结 采用 于 训练 下 一 个 新 的 前 景 和 育 景 模型 ， 实 现 一 种 迭代 
分 割 方法 。 这 样 能 够 提高 分 割 质 量 吗 ? 

(5) 微软 研究 院 Grab Cut 数据 集 包 仿真 实 的 分 割 图 。 实 现 一 个 可 以 度量 分 割 误差 的 
冰 数 ， 并 对 不 同 的 设置 以 及 前 面 练习 中 的 一 些 想法 进行 评估 。 

(6) 改变 归 一 化 的 制 边 的 权重 参数 ， 观 妈 其 如 何 影 响 特征 癌 量 图 像 ， 以 及 分 割 的 结 琳 。 

(7) 在 第 一 次 归 一 化 割 的 特征 癌 量 上 计算 图 像 梯度 ， 合 并 这 些 梯度 图 像 来 检测 图 像 中 
物体 的 轮廓 。 

(8) 在 Chan-Vese 分 割 算 法 中 ， 对 去 噪 后 的 图 像 在 国 值 上 进行 线性 搜索 。 对 于 每 个 国 
值 ， 存 储 能 量 BIT)， 并 选择 具有 最 小 值 的 分 割 结 采 。 
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OpenCV 





本 章 概 述 如 何 通过 Python #2 O fE H iT AI TP EL AW it E OpenCV, OpenCV 是 一 个 
CH 库 ， 用 于 《实时 ) 处理 计 算 视 觉 问 题 。 实 时 处 理 计 算 机 视觉 的 C++ 库 ， 最 初 由 
英特尔 公司 开发 ， 现 由 Willow Garage 维护 。OpenCV 是 在 BSD 许可 下 发 布 的 开源 
库 ， 这 意味 着 它 对 于 学 术 人 研究 和 商业 应 用 是 免费 的 。OpenCV 2.0 版 本 对 于 Python 的 支 
持 已 经 得 到 了 极 大 的 改善 。 下 面 ， 我 们 会 讲解 一 些 基 本 的 例子 并 深入 了 解 视频 与 跟 踩 。 


10.1 OpenCV 的 Python 接 口 


OpenCV 是 一 个 C++ 库 ， 它 包含 了 计算 机 视 完 领域 的 很 多 模块 。 除 了 C++ 和 C， 
Python 作为 一 种 简洁 的 脚本 语言 ， 在 C++ 代码 基础 上 的 Python 接口 得 到 了 越 来 越 
广泛 的 支持 。 目 前 ，OpenCYV 的 Python 接口 仍 在 发 展 ， 不 过 并 不 是 所 有 的 OpenCV 
组 件 都 提供 了 相应 的 Python 接口 ， 此 处 还 有 很 多 函数 没有 文档 说 明 。 因 为 该 接口 背 
后 有 一 个 很 活跃 的 开发 社区 ， 所 以 这 种 现状 很 有 可 能 得 到 改变 。Python 接口 文档 说 
明 见 http://opencv.willowgarage.com/documentation/python/index.html， 安 装 说 明 参 


bal Mita A. 


OpenCV 2.3.1 版 本 实际 上 提供 了 两 个 Python 接口 。 旧 的 cv 模块 使 用 OpenCV 内 部 
数据 类 型 ， 并 且 从 NumPy 使 用 起 来 可 能 需要 一 些 技巧 。 新 的 cv2 模块 用 到 了 NumPy 数 
组 ， 并 且 使 用 起 来 更 加 直观 ， 可 以 通过 以 下 方式 导入 新 的 cv2 模块 : 


import cv2 








TE 1: 这 两 个 模块 的 名 称 和 位 置 可 能 会 随时 间 改 变 。 改 变 情况 参阅 在 线 文 档 。 
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而 对 于 旧 的 cv 模块 可 以 通过 以 下 方式 导入 : 
import cv2.cv 


AS Fe ABOVE cv2 ER HERE AAT RA PRA R LA FE Jar Rh 
本 中 的 定义 。 现 在 ，OpenCV 和 Python 接口 在 飞速 发 展 中 。 





10.2 OpenCV 基 础 知识 


OpenCV 目 融 读 取 、 写 入 图 像 函 数 以 及 矩阵 操作 和 数学 库 。 关 于 OpenCV 的 细 市 ， 
有 一 本 很 好 的 书 [3] (只 有 C++ 版) 。 我 们 现在 来 看 一 些 基 本 的 组 件 及 其 使 用 方法 。 








10.2.1 读 取 和 写 入 图 像 
下 面 这 个 简短 的 例子 会 载 入 一 张 图 像 ， 打 印 出 图 像 大 小 ， 对 图 像 进行 转换 并 保存 
为 png 格式 : 


import cv2 


# 读 取 图 像 

im = cv2.imread('empire.jpg') 
h,w = im.shape[:2] 

print h,w 


# 你 存 图 像 


cv2.imwrite('result.png' ,im) 


国 数 imread() 返回 图 像 为 一 个 标准 的 NumPy 数组 ， 并 且 该 函数 能 够 处 理 很 多 不 同 格 
式 的 图 像 。 如 果 你 愿意 ， 可 以 将 该 函数 作为 PIL 模块 谈 取 图 像 的 备 选 方案 。 国 数 
imwrite() 会 根据 文件 后 绥 上 自动 转换 图 像 。 


10.2.2 ”颜色 空间 
在 OpenCV 中 ， 图 像 不 是 按 传统 的 RGB 颜色 通道 ， 而 是 按 BGR 顺序 〈 即 RGB 的 
倒序 ) 存储 的 。 读 取 图 像 时 默认 的 是 BGR ， 但 是 还 有 一 些 可 用 的 转换 国 数 。 颜 色 空 
间 的 转换 可 以 用 国 数 cvtColor() 来 实现 。 例 如 ， 可 以 通过 下 面 的 方式 将 原 图 像 转换 
成 灰 度 图 像 : 

im = cv2.imread('empire. jpg’ ) 


# 创建 灰 度 图 像 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 
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在 读 取 原 图 像 之 后 ， 紧 接 其 后 的 是 OpenCV 颜色 转换 代码 ， 其 中 最 有 用 的 一 些 转换 
代码 如 下 : 


e cv2.COLOR_BGR2GRAY 
e cv2.COLOR_BGR2RGB 
e cv2.COLOR_GRAY2BGR 


上 面 每 个 转换 代码 中 ， 转 换 后 的 图 像 颜色 通道 数 与 对 应 的 转换 代码 相 匹 配 ， 比 如 对 于 
灰 度 图 像 只 有 一 个 通道 ， 对 于 RGB 和 BGR 图 像 则 有 三 个 通道 。 最 后 的 cv2.COLOR_ 
GRAY2BGR 将 灰 度 图 像 转换 成 BGR 彩色 图 像 ， 如 果 你 想 在 图 像 上 绘制 或 覆盖 有 色彩 
的 对 象 ，CV2.COLOR_GRAY2BGR 是 非常 有 用 的 ， 我 们 会 在 后 面 的 例子 中 用 到 它 。 


10.2.3 显示 图 像 及 结 
我 们 来 看 一 些 用 OpenCYV 处 理 图 像 的 例子 ， 以 及 怎样 利用 OpenCV 绘制 功能 和 窗口 
管理 功能 来 显示 结果 。 


第 一 个 例子 是 从 文件 中 读 取 一 幅 图 像 ， 并 创建 一 个 整数 图 像 表示 : 
import cv2 


# 读 取 图 像 
im = cv2.imread('fisherman. jpg' ) 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


# 计算 积分 图 像 
intim = cv2.integral(gray) 


# 归 一 化 并 保存 
intim = (255.0*intim) / intim.max() 


cv2.imwrite('result.jpg',intim) 


读 取 图 像 后 ， 将 其 转化 为 灰 度 图 像 ， 图 数 integral() 创建 一 幅 图 像 ， 该 图 像 的 每 个 
像素 值 是 原 图 上 方 和 左边 强度 值 相 加 后 的 结果， 这 对 于 快速 评估 特征 是 一 个 非常 有 
用 的 技巧 。OpenCYV 的 CascadeClassifier 用 到 了 积分 图 像 ， 立 足 于 Viola 和 Jones 
在 文献 [39] 中 引入 的 框架 。 在 保存 图 像 前 ， 通 过 除 以 图 像 中 的 像素 最 大 值 将 其 归 一 
化 到 0 至 255 之 间 。 图 10-1 显示 了 示例 图 像 结果 。 


第 二 个 例子 从 一 个 种 子 像素 进行 泛 洪 填充 : 








import cv2 


t 读 取 图 像 
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filename = 'fisherman.jpg' 
im = cv2.imread(filename) 
h,w = im.shape[:2] 


# 沁 潜 填充 

ditt = (6,;6;6) 

mask = zeros((h+2,w+2),uint8) 

cv2.floodfill(im,mask, (10,10), (255,255,0),diff, diff) 


# 在 OpenCV 窗口 中 显示 结果 
cv2.imshow('flood fill', im) 
cv2.waitKey() 


H 保存 结 林 
cv2.imwrite('result.jpg',im) 

















10-1: 用 OpenCV 的 integral() 贺 数 计算 积分 图 像 


在 该 例 中 ， 对 图 像 应 用 泛 洪 填充 并 在 OpenCV 窗口 中 显示 结果 。waitKey() 函数 一 直 
处 于 暂停 状态 ， 直 到 有 按键 按 下 ， 此 时 窗口 才 会 自动 关闭 。 这 里 的 floodfill() 图 
BOREL (KEKEE) 图 像 、 一 个 掩 膜 ( 非 零 像素 区 域 表 明 该 区 域 不 会 被 填充 )、 一 
个 种 子 像素 以 及 新 的 颜色 值 来 代替 下 限 和 上 限 浆 值 差 的 泛 洪 像素 。 泛 洪 填 充 以 种 子 
像素 为 起 始 ， 只 要 能 在 国 值 的 差异 范围 内 添加 新 的 像素 ， 泛 洪 填 充 就 会 持续 扩展 。 
不 同 的 国 值 差 异 由 元 组 (R,G,B) 给 出 ， 结 果 如 图 10-2 所 示 。 


作为 最 后 一 个 例子 ， 我 们 来 看 SURE 特征 的 提取 ，SUREF 特征 是 SIFT 特征 的 一 个 更 
快 特征 提取 版 ， 文 献 [1] 引入 。 这 里 ， 我 们 也 会 展示 怎样 使 用 一 些 基本 的 OpenCV 


绘制 命令 : 











import cv2 


t 读 取 图 像 


im = cv2.imread('empire. jpg' ) 
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# 下 采样 


im lowres = cv2.pyrDown(im) 


# 变换 成 灰 度 图 像 
gray = cv2.cvtColor(im lowres,cv2.COLOR RGB2GRAY) 


# 检测 特征 点 

s = OVA SURF) 

mask = uint8(ones(gray.shape)) 
keypoints = s.detect(gray,mask) 


# RERA 
vis = cv2.cvtColor(gray,cv2.COLOR GRAY2BGR) 


for k in keypoints[::10]: 
cv2.circle(vis, (int(k.pt[0]),int(k.pt[1])),2,(0,255,0),-1) 
ev2 circlée(vis, (int(kst|0]),int(k. pt[d])),1nt( k.sizé),(0,255,0);2) 


cv2.imshow('local descriptors',vis) 
cv2.waitKey() 











10-2: 彩色 图 像 泛 洪 填 充 。 在 左上 角 用 单个 种 子 进行 泛 洪 填 充 ， 右 图 高 之 区 域 标 出 了 所 有 
填充 了 的 像素 


读 取 图 像 后 ， 如 果 没 有 给 定 新 尺寸 ， 则 用 pyrDown() 进行 下 采样 ， 创 建 一 个 尺寸 为 原 
图 像 大 小 一 半 的 新 图 像 ， 然 后 将 该 图 像 转换 为 灰 度 图 像 ， 并 传递 到 一 个 SURF 关键 点 
检测 对 象 ， 掩 膜 决 定 了 在 哪些 区 域 应 用 关键 点 检测 右 。 在 画 出 检测 结果 时 ， 我 们 将 灰 
度 图 像 转 换 成 彩色 图 像 ， 并 用 绿色 通道 画 出 检测 到 的 关键 点 。 我 们 在 每 到 第 十 个 关键 
点 时 循环 一 次 ， 并 在 中 心 画 一 个 圆 环 ， 每 一 个 圆 环 显示 出 关键 点 的 尺度 〈 大 小 )。 绘 
图 函数 circle() 获取 一 幅 图 像 、 图 像 坐 标 〈 仅 整数 坐标 ) 元 组 、 半 径 、 绘 图 的 颜色 
元 组 以 及 线条 粗细 (-1 是 实 线 圆 环 )。 图 10-3 显示 了 提取 出 来 的 SURF 特征 。 
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10-3: 用 OpenCV 提取 SURF 特征 并 画 出 提取 出 来 的 SURF 特征 


10.3 处理 视频 

单纯 使 用 Python 来 处 理 视 频 有 些 困 难 ， 因 为 需要 考虑 速度 、 编 解码 姓 、 摄 像 机 、 操 
作 系 统 和 文件 格式 。 目 前 还 没有 和 针对 Python 的 视频 库 ， 使 用 OpenCV 的 Python 接 
口 是 唯一 不 错 的 选择 。 在 本 市 中 ， 我 们 来 看 一 些 处 理 视频 的 基本 示例 。 





10.3.1 视频 输入 
OpenCV 能 够 很 好 地 支持 从 摄像 头 读 取 视 频 。 下 面 给 出 了 一 个 捕 歼 视频 帧 并 在 
OpenCV 窗口 中 显示 这 些 视频 帧 的 完整 例子 : 


import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


while True: 

ret,im = cap.read() 

cv2.imshow('video test', im) 

key = cv2.waitKey(10) 

if key == 27: 
break 

if key == ord(' '): 
cv2.imwrite('vid result.jpg', im) 


THI KT Ze VideoCapture FeRAM ER ALI. BAN Va ek — AER ETRE, 
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该 整数 为 视频 设备 的 id;， 如 采 仅 有 一 个 摄像 头 与 计算 机 相连 接 ， 那 么 该 摄像 头 的 id 
AO. read() 方法 解码 并 返回 下 一 视频 帧 ， 第 一 个 变量 ret 是 一 个 判断 视频 帧 是 否 
成 功 读 入 的 标志 ， 第 二 个 变量 则 是 实际 读 入 的 图 像 数 组 。 函 数 waitkey() 等 待 用 户 
按键 : 如 果 按 下 的 是 Esc ft (ASCI 码 是 27) 键 ， 则 退出 应 用 ， 如 果 按 下 的 是 空格 
律 ， 就 保存 该 视频 帧 。 


拓展 上 面 的 例子 ， 将 摄像 头 捕 歼 的 数据 作为 输入 ， 并 在 OpenCV 窗口 中 实时 显示 经 
模糊 的 (彩色) 图 像 ， 我 们 只 需 对 上 面 的 例子 做 简单 的 修改 : 





import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


E TRI, AA, AeA 
while True: 
ret,im = cap.read() 
blur = cv2.GaussianBlur(im, (0,0),5) 
cv2.imshow('camera blur’ ,blur) 
if cv2.waitKey(10) == 27: 
break 


4g. — FLOM LADS OK FRB ZA GaussianBlur() EIA, ZARS A ee aR es I RAHI 
帧 图 像 进行 滤波 。 这 里 ， 我 们 传递 的 是 彩色 图 像 ， 所 以 Gaussian Blur) 函数 会 录 
入 对 彩色 图 像 的 每 一 个 通道 单独 进行 模糊 。 该 函数 需要 为 高 斯 冰 数 设 定 滤波 絮 尺 寸 
(保存 在 元 组 中 ) 及 标准 差 ， 在 本 例 中 标准 差 设 为 5。 如 果 该 滤波 如 尺寸 设 为 0， 则 
它 由 标准 差 自动 决定 ， 显 示 出 的 结果 与 图 10-4 相似 。 














10-4: 作者 撰写 本 章 时 的 一 幅 经 过 模糊 的 视频 截图 
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以 同样 的 方式 从 文件 读 取 视频 ， 不 过 我 们 调用 VideoCapture() 获取 视频 时 是 以 文件 
名 作为 输入 的 : 


capture = cv2.VideoCapture('filename' ) 


10.3.2 ”将 视频 读 取 到 NumPy 数 组 中 
使 用 OpenCV 可 以 从 一 个 文件 读 取 视 频 帧 ， 并 将 其 转换 成 Numpy 数组 。 下 面 是 一 个 
从 摄像 头 捕获 视频 并 将 视频 帧 存储 在 一 个 NumPy 数组 中 的 例子 : 


import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


frames = [ | 
# 获取 帧 ， 存 储 到 数组 中 
while True: 
ret,im = cap.read() 
cv2.imshow('video' , im) 
frames .append(im) 
if cv2.waitKey(10) == 27: 
break 
frames = array(frames) 


# 检查 尺寸 
print im.shape 
print frames.shape 


上 述 代码 将 每 一 视频 帧 数组 添加 到 列表 未 ， 直 到 捕获 结束 。 最 终 得 到 的 数组 会 有 由 
数 、 帧 高 、 帧 宽 及 颜色 通道 数 (3 个 ) ， 打 印 出 的 结 东 如 下 : 


(480, 640, 3) 
(40, 480, 640, 3) 


这 里 共 记 录 了 40 帧 。 类 似 上 面 将 视频 数据 存储 在 数组 中 对 于 视频 处 理 契 非常 有 帮助 
的 ， 比 如 计算 帧 同 差 异 以 及 跟踪 。 


10.4 跟踪 
跟踪 是 在 图 像 序 列 或 视频 里 对 其 中 的 目标 进行 跟 踊 的 过 程 。 
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10.4.1 Stitt 

光 流 是 目标 、 场 景 或 摄像 机 在 连续 两 帆 图 像 间 运 动 时 造成 的 目标 的 运动 。 它 古 图 像 
在 平移 过 程 中 的 二 维 矢 量 场 。 作 为 一 种 经 典 并 深入 研究 了 的 方法 ， 它 在 诸如 视频 压 
缩 、 运 动 估计 、 目 标 跟 踪 和 图 像 分 割 等 计算 机 视觉 中 得 到 了 广泛 的 应 用 。 


光 尝 法 主要 依 束 于 三 个 假设 。 


(1) 亮度 恒定 “图像 中 目标 的 像素 强度 在 连续 帧 之 间 不 会 发 生变 化 。 

(2) 时 间 规 律 ” 相 邻 帆 之 间 的 时 间 足 够 得， 以 至 于 在 芳 虑 运行 变化 时 可 以 忽略 它们 之 
间 的 差异 。 该 假设 用 于 导出 下 面 的 核心 方程 。 

(3) 空间 一 致 性 相 邻 像素 具有 相似 的 运动 。 


在 很 多 情况 下 这 些 假设 并 不 成 立 ， 但 是 对 于 相 邻 帧 间 的 小 运动 以 及 短 时 间 跳 跃 ， 它 
还 是 一 个 非常 好 的 模型 。 假 设 一 个 目标 像素 在 上 时 刻 亮 度 为 ay, dD, Æ ôt 时 刻 运 
动 [6x,6y] 后 与 上 时 刻 具 有 相同 的 亮度 ， 即 y, D= xx, y+6y, t+ôt). 对 该 约束 用 和 泰 
勒 公式 进行 一 阶 展开 并 关于 1 求 偏 导 可 以 得 到 交流 方程 : 


Vľv=-], 


v=[u,v] 是 运动 矢量 , 1, EMS. A FERR PIERDA, a EE RET E 
组 。 由 于 v 包 仿 两 个 未 知 变量 ， 所 以 该 方程 是 不 可 解 的 。 通 过 强制 加 入 空间 一 致 性 
约束 ， 则 有 可 能 获得 该 方程 的 解 。 在 下 面 的 Lucas-Kanade 算法 中 ， 我 们 将 看 到 怎样 
利用 该 假设 。 


OpenCV 包含 了 一 些 光 流 实现 用 了 块 匹配 的 CalcopticalFlowBM(); M T X 
MA [15] (这 些 只 存在 于 旧 的 cv 模块 ) 的 CalcopticalFlowS();， 文献 [19] 中 的 
2S [A] 4z F IS Lucas-Kanade 算法 calcOpticalFlowPyrLK(); 以 及 基于 文献 [10] 的 
calcOpticalFlowFarneback()。 最 后 一 种 被 视 为 获取 密集 流 场 的 最 好 方法 之 一 。 让 
我 们 看 一 个 利用 calcopticalFlowFarneback() 在 视频 中 寻找 运动 矢量 的 例子 (Lucas- 
Kanade 光 流 法 在 下 一 六 讲述 )。 


运行 下 面 的 脚本 : 
import cv2 


def draw flow(im, flow, step=16): 
"" 在 间隔 分 开 的 像素 采样 点 处 绘制 光 流 "”， 


h,w = im.shape[:2] 
y,X = mgrid[step/2:h:step, step/2:w:step].reshape(2, -1) 
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tx sty = tT LOWLY 


# 创建 线 的 终点 
lines = vstack([x,y,x+fx,y+fy]).T.reshape(-1,2,2) 
lines = int32(lines) 


# 创建 图 像 并 绘制 
vis = cv2.cvtColor(im,cv2.COLOR GRAY2BGR) 
For (XT YI) (x2, y2) in Lines: 
EV2iLine (vis; (Xl yy V2 )5(03255,0) 5.1) 
ew2 vcircle(Visy(x1,; 1) 2; (0525550); <4) 
return vis 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


ret,im = cap.read() 
prev gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


while True: 
# GREK BEAR 
ret,im = cap.read() 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


# thant 
flow = cv2.calcOpticalFlowFarneback(prev_gray,gray,None,0.5,3,15,3,5,1.2,0) 
prev gray = gray 
# I ite ae 
cv2.imshow('Optical flow',draw flow(gray, flow) ) 
if cv2.waitKey(10) == 27: 
break 


Fix 7 Pol FFP, AHA a 18 SA THR A FRO a ERA ROT HE TIC hit. H 
calcOpticalFlowFarneback() 返回 的 运动 光 流 矢量 保存 在 双 通 道 图 像 变 量 flow 中 。 除 
了 需要 获取 需要 获取 前 一 帧 和 当前 帧 ， 该 国 数 还 需要 一 系列 参数 。 如 末 有 兴趣 可 以 
查找 相关 的 文献 。 辅 助 函 数 draw flow() SHERRY AIA PA ANZ HIDE Ae, 
它 利 用 OpenCy 的 绘图 函数 line() 和 circle()， 并 用 变量 step 控制 流 样本 的 间距 。 
最 终 的 结 末 如 图 10-5 所 示 : 圆 环 网 格 示 示 六 样本 的 位 置 ， 市 有 线条 的 琉 矢量 显示 了 
每 个 样本 点 是 怎样 运动 的 。 














Optical Flow Optical Flow 








图 10-5: 在 书本 平移 和 头 部 转动 的 视频 上 展示 光 流 矢量 (每 隔 15 个 像素 采样 一 次 ) 


10.4.2 Lucas-Kanade 算 法 


跟踪 最 基本 的 形式 是 跟随 感 兴 趣 点 ， 比 如 角 点 。 对 此 ,一 次 流行 的 算法 是 Lucas- 
Kanade 跟踪 算法 ， 它 利用 了 稀 蚊 交流 算法 。 


Lucas-Kanade 跟踪 算 法 可 以 应 用 于 任何 一 种 特征 ， 不 过 通常 使 用 一 些 角 点 ， 比 如 
2.1 节 的 Harris 角 点 。 ed de 函数 采用 Shi 和 Tomasi 在 文献 [33] 中 
设计 的 算法 检测 角 点 ;， 角 点 是 结构 张 量 (Harris Æ) 中 有 两 个 较 大 特征 值 的 那些 
点 ， 且 更 小 的 ss A 


如 琳 基 于 每 一 个 像素 考虑 ， 该 光 流 方程 组 古 欠 定 方程 ， 即 每 个 方程 中 伟人 很 多 未 知 变 
量 。 利 用 相 邻 像素 有 相同 运动 这 一 假设 ， 对 于 n 个 相 邻 像素 ， 可 以 将 这 些 方程 写成 
如 下 系统 方程 : 








VI' (x) LX) L) LX) 
VI (x2) p- LA) DX) Nu |La) 
: oi ; v| : 
VI (Xn) L.) L) L(x.) 


该 系统 方程 的 优势 是 ， 现 在 方程 的 数目 多 于 未 知 变 量 ， TE A 
该 系统 方程 。 对 于 周围 像素 的 页 献 可 以 进行 加 权 处 理 ， 使 越 远 的 像素 影响 越 小 ， 
斯 权重 是 一 种 最 常见 的 选择 。 将 上 面 的 算 阵 变换 成 方程 (2.2) 的 结构 张 量 形式 ， 可 
以 得 出 以 下 关系 : 


L(x) 


ya L X yr o 
Mv =- 0], EA Ab 


L(x) 
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该 超 定 方 程 组 可 以 用 最 小 二 乘法 求解 ， 得 出 运动 矢量 : 
v = (4'A)'A'D 
v RAE AA 可 逆 时 才 是 可 解 的 ， 如 果 应 用 在 Harris 角 点 或 Shi-Tomasi 的 “利于 跟 


ent AH eel features to track” E, AA 是 可 逆 的 。 这 就 是 Lucas-Kanade 跟踪 算法 
运行 矢量 怎样 计算 出 来 的 全 过 程 。 


标准 的 Lucas-Kanade 跟踪 适用 于 小 位 移 ， 为 了 能 够 处 理 较 大 位 移 ， 需 要 采用 分 层 的 
方法 。 在 该 情形 下 ， 光 流 可 以 通过 对 图 像 由 粗 到 精采 样 计 算得 到 。 这 就 是 OpenCV 
国 数 calcOpticalFlowPyrLK() 要 做 的 事 。 


这 些 Lucas-Kanade KAE EE OpenCV 中 ， 让 我 们 看 看 怎样 利用 这 些 疯 数 建立 一 个 
Python 跟踪 类 。 创 建 名 为 ktrack.py 的 文件 ， 癌 其 添加 下 面 的 类 和 构造 函数 : 


import cv2 


# 一些 第 数 及 默认 参数 
lk params = dict(winSize=(15,15),maxLevel=2, 


criteria=(cv2.TERM CRITERIA EPS | cv2.TERM CRITERIA COUNT,10,0.03)) 


subpix params = dict(zeroZone=(-1,-1),winSize=(10,10), 
criteria = (cv2.TERM CRITERIA COUNT | cv2.TERM CRITERIA EPS, 20,0.03)) 


feature params = dict(maxCorners=500, qualityLevel=0.01,minDistance=10) 


class LKTracker(object): 
用 人 金字塔 光 流 Lucas-Kanade 跟踪 类 """ 


def init (self,imnames): 


"使 用 图 像 名 称 列表 初始 化 " 


self.imnames = imnames 
self.features = | | 
self.tracks = | 
self.current_frame = 0 


用 一 个 文件 名 列表 对 跟踪 对 象 进 行 初 始 化 ， 变 量 features 和 tracks 分 别 保存 角 点 
对 这 些 角 点 进行 跟踪 的 位 置 ， 同 时 ， 我 们 也 利用 一 个 变量 对 当前 帆 进 行 跟 躁 。 > 
定义 了 三 个 字典 变量 用 于 特征 提取 、 跟 踪 、 和 亚 像 素 特 征 点 的 提炼 。 


在 开始 检测 角 点 时 ， 我 们 需要 载 和 实际 图 像 ， 并 转换 成 灰 度 图 像 ， 提 取 “ 利 用 跟踪 
的 好 的 特征 ”点 。OpenCYV 函数 goodFeaturesToTrack() 方法 可 以 完成 这 一 主要 工 








作 。 将 下 面 的 detect points() 添加 到 LKTracker 类 中 : 


def detect_points(self): 
"e 利用 子 像素 精确 度 在 当前 帧 中 检测 “利于 跟踪 的 好 的 特征 ”( 角 点 )""" 





E 载 入 图 像 并 创建 灰 度 图 像 
self.image = cv2.imread(self.imnames[self.current_ frame] ) 
self.gray = cv2.cvtColor(self.image,cv2.COLOR BGR2GRAY) 


# 搜索 好 的 特征 点 


features = cv2.goodFeaturesToTrack(self.gray, **feature params) 


# 提炼 角 点 位 置 


cv2.cornerSubPix(self.gray,features, **subpix params) 


self.features = features 
self.tracks = [[p] for p in features.reshape((-1,2)) | 


self.prev_ gray = self.gray 


述 代 人 码 用 i eee 并 保存 在 成 员 变 量 features 和 tracks 
中 。 需 要 注意 的 是 ， 运 行 该 国 数 会 请 除 跟 踩 历史 。 


现在 我 们 已 经 可 以 检测 这 些 角 点 ， 接 下 来 还 需要 对 其 进行 跟踪 。 首 先 我 们 需要 获得 下 
一 帧 图 像 ， 然 后 应 用 OpenCYV 函数 calcOpticalFlowPyrLk() 找 出 这 些 点 运动 到 哪里 
了 ， 最 后 清除 这 些 包含 跟踪 点 的 列表 。 下 面 的 track points() 方法 可 以 完成 该 过 程 : 








def track points(self): 
"Po eer EY AEE "” 


if self.features != [|]: 
self.step() # 移 到 下 一 帧 


# 载 入 图 像 并 创建 灰 度 图 像 
self.image = cv2.imread(self.imnames[self.current_frame | ) 
self.gray = cv2.cvtColor(self.image,cv2.COLOR BGR2GRAY ) 


#reshape() 操作 ， 以 适应 输入 格式 
tmp = float32(self.features).reshape(-1, 1, 2) 


# 计算 光 流 
features, status, track error = cv2.calcOpticalFlowPyrLK(self.prev_ gray, 
self.gray,tmp,None, **]k params) 


# 去 除 丢 失 的 点 
self.features = [p for (st,p) in zip(status,features) if st] 
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# 从 丢失 的 点 清楚 跟踪 轨迹 


features = array(features).reshape((-1,2)) 


for i,f in enumerate(features): 
self.tracks[i].append(f) 
ndx = [i for (i,st) in enumerate(status) if not st] 


ndx.reverse()# 从 后 面 移 除 


for i in ndx: 


self.tracks.pop(i) 


self.prev_ gray = self.gray 





下 面 定义 一 个 辅助 国 数 step() ， 用 于 移动 到 下 一 视频 帧 


该 方法 会 跳 转 到 一 个 给 定 的 视频 帧 ， 如 来 没有 给 定 参 数 则 直接 跳 转 到 下 一 帧 。 


最 后 ， 我 们 还 希望 能 够 用 OpenCV 窗口 和 绘图 国 数 画 出 最 终 的 跟踪 结果 。 


ee framenbr=None): 


" AE Pil, WAAL 


if framenbr is None: 
self.current_frame 

else: 
self.current_frame 


(self.current_ frame + 1) % len(self.imnames) 


framenbr % len(self.imnames) 


draw() 方法 到 LKTracker 类 : 


def draw(self): 








"用 OpenCV 自 带 的 画图 函数 画 出 当前 图 像 及 跟踪 点 ， 按 任意 键 关闭 窗口 """ 


# 用 绿色 圆圈 画 出 跟踪 点 


for point in self.features: 


cv2.circle(self.image, (int(point[0o][0]),int(point[0][1])),3,(0,255,0),-1) 


cv2.imshow('LKtrack', self. image) 


cv2.waitKey() 


台 定 参数 ， 直 接 移 到 下 一 帧 ” 





MÆ, RITH OpenCV 函数 实现 了 一 个 完整 独立 的 跟踪 系统 。 


1. 使 用 跟踪 器 
a a a a a 


ITAR, RER, Jm HIRERE : 


import lktrack 


imnames = ['bt.003.pgm', 


‘bt.002.pgm' , 


‘bt.001.pgm' , 


‘bt .000.pgm' | 


as OM 





# 创建 跟踪 对 象 
lkt = lktrack.LKTracker(imnames) 


# 在 第 一 帧 进行 检 测 ， 跟 踪 剩 下 的 帧 
lkt.detect points() 
lkt.draw() 
for i in range(len(imnames)-1): 
lkt.track points() 
lkt.draw() 


FRE — tl, HERRAR, RERESET E 10-6 
显示 了 牛津 corridor 序列 (牛津 对 多 视图 数据 集中 的 一 个 序列 ， 参 见 http://www. 
robots.ox.ac.uk/~vgg/data/data-mview.html) 的 前 4 幅 图 像 的 跟踪 结果 。 








LKtrack 








10-6: 通过 LKTrack 类 利用 Lucas-Kanade 算法 进行 跟踪 
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2. 使 用 发 生 器 
将 下 面 的 方法 添加 到 LKTracker 2: 


def track(self): 
"Be ait, MTERA" 


for i in range(len(self.imnames) ): 
if self.features == |]: 
self.detect_points() 
else: 
self.track_points() 
# 创建 一 份 RGB 副本 
f = array(self.features).reshape(-1,2) 
im = cv2.cvtColor(self.image,cv2.COLOR BGR2RGB) 
yield im, fF 


TRAY Fa 15 BES HE ai, ERE aE Se IFES A a x EE Fd RL, 


RGB 数组 保存 ， 以 方便 画 出 跟踪 结果 。 将 它 用 于 经 典 的 牛津 “dinosaur” 序 列 (也 
来 源 于 上 面 提 到 的 多 视图 数据 集 )， 并 画 出 这 些 点 及 这 些 点 的 跟踪 结果 ， 代 码 如 下 : 





import lktrack 


imnames = ['viff.000.ppm', 'viff.001.ppm', 
'viff.002.ppm', ‘viff.003.ppm', ‘viff.004.ppm' | 


# 用 LKTracker 发 生 器 进行 跟踪 
lkt = lktrack.LKTracker(imnames ) 
for im Tein Lktvtrack()? 
print 'tracking %d features' % len(ft) 


# 画 出 轨迹 
figure() 
imshow(im) 
TOR p cim ELS 
plot(p[0],p[1], ‘bo’ ) 
fort: an: Lkostracks: 
plott pO, how jp: an: 4) oll) Or spe ai. E) 
axis('off') 
show( ) 


iB HE ae (EA a ESC AY PR RE A EA SE AD, FPA SE 4 IA A PB eke 
OpenCV 里 的 国 数 。 该 示例 生成 的 结 末 如 图 10-6 右 下 图 和 图 10-7 所 示 。 




















10-7: 用 Lucas-Kanade 跟踪 算法 在 转盘 序列 上 跟 踩 并 男 出 跟 踩 点 的 轨迹 


10.5 更 多 示例 


OpenCV 目 市 很 多 关于 如 何 使 用 Python 接口 的 有 用 示例 。 这 些 示 例 在 子 目 好 
samples/python2/ 中 ， 用 这 些 例 子 来 熟悉 OpenCV 是 一 种 非 第 好 的 方式 。 这 里 选择 
了 一 些 来 说 明 OpenCV 的 一 些 其 他 功能 。 


10.5.1 图 像 修复 
对 图 像 丢 失 或 损坏 的 部 分 进行 重建 的 过 程 叫做 修复 ， 既 包括 以 复原 为 目的 的 对 图 像 
丢失 数据 或 损坏 部 分 进行 恢复 的 算法 ， 也 包括 在 照片 编辑 应 用 程序 中 去 除 红眼 或 物 
体 的 算法 。 典 型 的 例子 是 ， 图 像 的 一 个 区 域 标记 为 “破损 ， 并 需要 利用 余下 的 数据 
对 该 区 域 进行 填补 。 
试 着 运行 下 和 面 的 命令 : 

$ python inpaint.py empire. jpg 


S47 LMA aS ASTT IF 6 Be, EZ H P AY VA m — 2 i Se AY k, 
最 终 修复 的 结 来 会 在 一 个 单独 的 窗口 中 显示 出 来 ， 图 10-8 展示 了 一 个 示例 。 
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图 10-8: 用 OpenCV 进行 图 像 修复 的 示例 。 左 图 显示 了 由 用 户 标 记 的 “和 破损” 区域。 右 图 
显示 了 经 过 图 像 修复 后 的 结果 


10.5.2 ”利用 分 水 岭 变 换 进 行 分 割 

分 水 岭 是 一 种 可 以 用 于 分 割 ( 见 图 10-9) 的 图 像 处 理 技术 。 图 像 可 以 看 成 是 一 幅 有 
很 多 种 子 区 域 “ 淹 没 ” 后 形成 的 拓扑 地 貌 。 由 于 梯度 幅 值 图 像 在 突出 的 边 绿 有 痊 ， 
而 且 分 割 通常 在 这 些 边缘 处 停止 ， 所 以 通常 会 用 到 梯度 幅 值 图 像 。 








ay! Ah | ? 
A 多 AZ 
y f j ) 
A pE 1 
本 5 人 K 
f ; 


10-9: 用 分 水 怜 变 换 分 割 图 像 。 左 图 是 夯 有 种 子 区 域 的 输入 图 像 ， 右 图 显示 了 分 割 结 
分 割 区 域 用 不 同 的 颜色 覆盖 














OpenCV 中 的 分 水 岭 变换 使 用 Meyer [22] 的 算法 ， 可 以 使 用 下 面 的 命令 


$ python watershed.py empire. jpg 


该 命令 会 打开 一 个 交互 窗口 ， NRG e 口中 画 一 些 种 子 区 域 作 为 输入 。 图 10-9 
右 图 显示 了 用 分 水 岭 变换 进行 分 割 后 的 结 朱 ， 在 变换 后 的 灰 度 图 像 中 ， 不 同 颜色 代 
表 分 割 窗 盖 的 区 域 。 


10.5.3 ”利用 霍 夫 变换 检测 直线 

霍 夫 变换 (http://en.wikipedia.org/wiki/Hough_transform) 是 一 种 用 于 在 图 像 中 寻找 
各 种 形状 的 方法 ， 原 理 古 在 参数 空间 中 使 用 投票 机 制 。 霍 夫 变 换 和 常用 于 在 图 像 中 寻 
找 直 线 结构 。 在 该 情况 下 ， 可 以 在 二 维 直 线 参数 空间 对 相同 的 直线 参数 进行 投票 ， 
将 边缘 和 线段 组 合 在 一 起 。 


OpenCV 可 以 利用 该 方法 进行 直线 检测 ， 运 行 下 面 的 命令 : 








$ python houghlines.py empire.jpg 


它 会 给 出 图 10-10 中 的 两 个 窗 5 ya Es T Dik Rd ad 47 Ang BE SO Hi Ja HIAR BE 
图 像 ， ein nen. Ri 间 获 得 的 投 
mine. ER, oe 是 无 限 长 的 ， 如 末 你 想 在 图 像 中 找到 线段 的 端点 ， 可 
以 使 用 边 绿 映射 找到 这 些 端 后 。 














图 10-10: 利用 霍 夫 变换 检测 直线 。 左 图 定 原 图 像 经 变换 后 的 灰 度 图 像 ， 右 图 显示 了 检测 到 
的 直线 


1: 该 示例 当前 在 /sample/python 文件 夹 中 。 
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练习 


(1) 用 交流 建立 一 个 简单 的 手势 识别 系统 。 例 如 ， 你 可 以 在 绘图 冰 数 中 对 流 采 样 ， 并 
将 这 些 样本 矢量 作为 输入 。 

(2) OpenCV 中 有 两 个 扭曲 国 数 ，cv2.warpAffine() 和 cv2.warpPerspective()。 试 着 
将 它们 用 于 第 3 章 的 一 些 例 子 中 。 

(3) 在 图 10-7 的 那些 牛 唐 “dinosaur ”图 像 上 用 泛 洪 盾 充 函数 做 背景 减 除 ， 创 建新 的 
图 像 ， 将 马龙 放 在 不 同 的 颜色 背景 中 或 不 同 的 图 像 中 。 

(4) OpenCV 有 一 个 函数 cv2.findChessboardCorners()， 它 能 够 自动 找到 棋盘 格 的 角 
点 。 使 用 此 函数 及 cv2.calibrateCamera() 范 数 来 完成 相机 的 校正 。 

(5) 如 末 你 有 两 台 摄 像 机 ， 将 它们 安装 在 立体 平台 上 ， 并 以 不 同 视频 设备 id 用 
cv2.VideoCapture() 捕 狭 成 对 的 立体 图 像 。 两 台 摄 像 机 对 应 id 分 别 为 0 和 1 开 
， 计 算 不 同 场景 的 景深 图 。 

(6) 在 8.4 节 数 独 OCR 分 类 问题 中 使 用 cv2.HuMoments() 提取 的 Hu PERENE, 
看 看 分 类 的 效果 如 何 。 

(7) OpenCV 中 有 一 个 Grab Cut 分 割 算法 ， 在 9.1 市 微软 研究 院 Grab Cut 数据 集 上 
用 cv2.grabCut() 函数 进行 图 像 分 市 。 与 我 们 在 例子 中 用 到 的 低 分 辨 率 分 割 相 比 ， 
你 应 该 会 获得 更 好 的 分 割 结 来 。 

(8) 修改 Lucas-Kanade 跟踪 类 ， 使 其 能 够 将 一 个 视频 文件 作为 输入 ， 并 写 一 个 脚本 ， 
在 帆 与 帆 之 间 进 行 点 跟踪 ， 在 每 阳 帆 时 检 疯 新 点 。 
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附录 A 


RRA 








Pie ABFA Ba AE LAY te] ER, SET SK AI RA. AAT 
况 会 因 时 间 发 生变 化 《网 址 变化 ! ) ， 所 以 如 有 果 以 下 说 明 过 时 ， 请 检查 各 项 目 网 站 寻 
求 帮助 。 


除了 对 各 软件 具体 的 说 明 ，Python 的 easy_install 往往 可 以 在 大 多 数 平台 上 使 用 。 
如 果 你 遇 到 安装 说 明 回 题 ，easy_install 值得 一 试 ， 详 见 http://packages.python.org/ 
distribute/easy_install.html, 





A.1 NumPy 和 Scipy 


Ke NumPy 和 SciPy 有 一 氮 不 同 ， 这 取决 于 你 的 操作 系统 。 请 按照 下 面相 应 的 说 明 
安装 ， 而 大 多 数 平 台 上 的 现行 版 本 是 2.0 (NumPy) 和 0.11 (Scipy)。 目 前 可 以 在 所 
有 主要 平台 上 运行 的 一 个 程序 包 是 Enthought 的 EPD Free， 它 是 商业 Enthought 发 
行 版 的 一 个 免费 轻 量 版 本 ， 参 见 http://enthought.com/products/epd_free.php. 


A.1.1 Windows 


HEH, Ax 


安装 NumPy 和 SciPy 最 简单 的 方法 是 在 http://www.scipy.org/Download 下 载 并 安装 二 
进 制版 本 。 





A.1.2 Mac OS X 
最 新 版 本 的 Mac OS X (10.7.0 [Lion] 及 以 上 ) 预 装 了 Numpy。 


24/7 


安装 NumPy 和 Scipy 到 Mac OS XX 的 一 个 人 简单 方法 是 使 用 SUPERPACK (https:// 
github.com/fonnesbeck/ScipySuperpack) ;这 种 方法 也 适用 于 Matplotlib。 


另 一 种 方法 是 使 用 包 管 理 系 统 MacPorts (http://www.macports.org/)。 除 了 下 面 的 方 
法 ， 这 同样 适用 于 Matplotlib. 





如 果 这 些 都 不 成 功 ， 该 项 目 网 页 还 列 出 了 其 他 方法 (http://scipy.org/) 。 


A.1.3 Linux 

Ke BOR RA TT ALY E BE RR, EE TIM T NumPy， 田 一 些 则 没有 。 
NumPy 和 SciPy 都 易于 通过 安装 包 内 置 的 处 理 程序 安装 (例如 Ubuntu 的 Synaptic). 
除了 下 面 的 方法 ， 你 也 可 以 使 用 包 处 理 程序 安装 Matplotlib。 


A.2 Matplotlib 


这 里 是 Matplotlib 的 安装 说 明 ， 以 防 你 在 NumPy/SciPy 的 安装 中 没有 安装 
Matplotlib。Matplotlib 可 以 从 http://matplotlib.sourceforge.net/ 免费 获取 。 点 击 
download (下 载 ) 链接 ， 为 你 的 系统 和 Python 发 行 版 下 载 最 新 版 本 的 安装 程序 。 目 
前 最 新 的 版 本 是 1.1.0。 


你 也 可 以 下 载 源 代码 并 解压 ， 从 命令 行 运行 : 





$ python setup.py install 


应 该 一 切 正 第 。 不 同系 统 的 一 般 安 装 提示 可 以 参阅 http://matplotlib.sourceforge.net/ 
users/installing.html， 上 述 安 闭 过 程 应 该 适用 于 大 多 数 平台 和 Python 版 本 。 


A.3 PIL 


PIL, EH Python 图 像 库 ， 可 在 http://www.pythonware.com/products/pil/ 获取 。 最 新 
beh Ae 1.1.7。 下 载 源 代码 包 ， 解 压 。 在 解压 后 的 文件 夹 中 ， 从 命令 行 运行 : 





$ python setup.py install 


如 果 你 想 使 用 PIL 保存 图 像 ， 需 要 有 JPEG (libjpeg) 和 PNG (zlib) 支持 。 如 果 你 
遇 到 任何 问题 ， 请 参阅 README 文件 或 PIL 网 站 。 





248 | BRA 


A.4 LibSVM 


最 新 版 本 是 3.1 (2011 年 4 月 发 布 )。 请 从 LibSVM 网 站 (http://www.csie.ntu.edu. 
tw/~cjlin/libsvm/) 下 载 zip 文件 ， 并 解压 (将 创建 目录 libsvm-3.1)。 从 终端 进入 该 日 
me, HA make: 


$ cd libsvm-3.0 
$ make 


然后 进入 python 目录， 同样 输入 make: 


$ cd python/ 
$ make 





EE Ste (RPT. A SWE MA, FEATS FT IA) Python, RIA: 
import svm 


作者 为 使 用 LibSVM [7] ES T KHR. MPO eR, ETP IRAF AIA aR. 


A.5 OpenCV 


RR OpenCV 有 些 不 同 ， 这 取决 于 你 的 操作 系统 。 按 照 下 面相 应 的 说 明 进 行 安 猜 。 





为 检查 安装 是 否 成 功 , 局 动 Python 并 尝试 http://opencv.willowgarage.com/documentation/ 
python/cookbook.html 上 的 示例 。 对 于 如 何 使 用 OpenCV 与 Python ， 在 线 OpenCV 
的 Python 参 芳 指责 提供 了 更 多 的 例子 和 细节 ， 参 见 http://opencv.willowgarage.com/ 


documentation/python/index.html, 


A.5.1 Windows 和 Unix 
在 SourceForge 库 里 ， 有 Windows 和 Unix 的 安装 程序 ， 参 见 http://sourceforge.net/ 


projects/opencvlibrary/, 


A.5.2 Mac OS X 


Mac OS X AY x fF A A RR, (E ZEON UB ie ES AM OpenCV 的 wiki 描述 (http:/ 
opencv.willowgarage.com/wiki/InstallGuide)， 有 几 种 方法 可 以 从 源 代 码 进 行 安 装 ， 
如 条 你 使 用 MacPorts 软件 包 管 理 絮 来 安装 Python, Numpy 和 SciPy 或 Matplotlib, 
它 会 古 一 个 不 错 的 选择 ， 可 以 这 样 从 源 代码 安装 OpenCV: 


$ svn co https://code.ros.org/svn/opencv/trunk/opencv 
$ cd opencv/ 
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$ sudo cmake -G "Unix Makefiles" . 
$ sudo make -j8 
$ sudo make install 


ANA REIT AAA ISS AR, DD AS er TE EE FP Ee MUR PR Bll — PI 
的 错误 : 


import cv2 

Traceback (most recent call last): 
file "", line 1, in 

ImportError: No module named cv2 





那么 你 需要 将 舍 cv2.so 的 目录 添加 到 PYTHONPATH。 例如 : 


$ export PYTHONPATH=/usr/local/lib/python2.7/site-packages/ 


A.5.3 Linux 


Linux 用 户 可 以 尝试 发 行 版 安装 包 (通常 称 为 opencv)， 或 像 Mac OS X 一 节 中 所 摘 
述 的 那样 ， 从 源 代 码 安 装 。 


A.6 VLFeat 


安装 VLFeat， 需 要 从 http://vifeat.org/download.html (目前 最 新 版 本 是 0.9.14) PAK 
并 解压 缩 最 新 的 二 进 制 软 件 包 。 把 路 径 添 加 到 你 的 环境 或 者 把 二 进 制 文件 复制 到 路 
径 中 的 目 孙 。 二 进 制 文件 在 bin 目录 ， 你 可 以 结合 自己 的 平台 选择 子 目录 。 


VLFeat 命令 行 二 进 制 文件 的 使 用 摘 述 在 src/ 子 目 录 。 你 也 可 以 在 http://vlfeat.org/ 
man/man.html 找到 在 线 的 说 明文 档 。 


A.7 PyGame 


PyGame 可 以 从 http://www.pygame.org/download.shtml 下 载 ， 最 新 版 本 是 1.9.1, He 
简单 的 方法 是 获取 与 系统 和 Python 版 本 相应 的 二 进 制 安装 包 。 


你 也 可 以 下 载 源 代码 ， 并 在 下 载 后 的 文件 夹 里 从 命令 行 中 运行 : 


$ python setup.py install 


A.8 PyOpenGL 


安装 PyOpenGL 最 人 简单 的 方法 是 按照 PyOpenGL 网 页 (http://pyopengl.sourceforge. 
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net/) 的 建议 从 http://pypi.python.org/pypi/PyOpenGL 下 载 安装 包 。 获 取 最 新 版 本 ， 
目前 是 3.0.1。 


在 下 载 文 件 来 ， 和 之 前 一 样 运行 
$ python setup.py install 


如 果 你 遇 到 问题 或 需要 依赖 性 信息 等 ,可 以 在 http://pyopengl.sourceforge.net/documentation/ 
installation.html 找到 更 多 说 明文 档 。http://pypi.python.org/pypi/PyOpenGL-Demo 有 
一 些 很 好 的 入 门 滨 示 脚 本 。 


A.9 Pydot 


首先 安装 依赖 关系 ，GraphViz 和 Pyparsing。 转 到 http:Wwww.sgraphviz.org/， 为 你 的 
平台 下 载 最 新 的 GraphViz 二 进 制 包 。 安 装 文件 会 自动 安装 GraphViz。 

然后 ， 转 到 Pyparsing 项 目 主 页 http://pyparsing.wikispaces.com/, PÆ A HA http:// 
sourceforge.net/projects/pyparsing/。 获 取 最 新 版 本 (目前 是 1.5.5)， 并 解压 到 一 个 日 
录 下 。 在 命令 行 输入 : 


$ python setup.py install 





最 后 ， 转 到 项 目 页 面 http://code.google.com/p/pydot/， 点 击 download (下 载 )。 从 下 
载 页 面 下 载 最 新 版 本 (目前 是 1.0.4)。 解 压 并 再 次 输入 : 


$ python setup.py install 





现在 你 应 该 能 够 将 pydot 导入 你 的 Python 会 话 中 。 


A.10 Python-graph 


Python-graph 是 一 个 操作 图 表 的 Python RH, GERS AHAW, WMD., 
短路 径 、 网 页 排名 和 最 大 流量 ， 最 新 的 版 本 是 1.8.1， 可 以 在 项 目 网 站 http://code. 
google.com/p/pythongraph/ 上 找到 。 如 果 你 的 系统 上 有 easy_install， 最 简单 的 方法 是 : 


$ easy install python-graph-core 
或 者 ， 在 http://code.google.com/p/python-graph/downloads/list 下 载 产 代码 并 运行 : 
$ python setup.py install 


要 编写 并 可 视 化 图 形 (使 用 的 DOT 语言 )， 你 需要 python-graphdot， 它 可 以 下 载 或 





安装 软件 包 | 251 


使 用 easy install 安装 : 
$ easy install python-graph-dot 


Python-graph-dot 依赖 于 pydot， 如 上 所 示 。 文 档 (HTML 格式 ) 在 docs/ 文件 夹 中 。 


A.11 Simplejson 


Simplejson 是 JSON 模块 的 独立 维护 版 本 ,适合 最 Python 新 版 (2.6 或 更 高 版 本 )。 
两 个 模块 的 语法 相同 ， 但 simplejson 更 优 ， 并 且 能 发 挥 更 好 的 性 能 。 


在 项 目 页 面 https://github.com/simplejson/simplejson 单 击 Download 按钮 。 然 后 在 
Download Packages (下 载 包 ) 区 域 (目前 是 2.1.3) 选择 最 新 版 本 。 解 压 文 件 夹 ， 
在 命令 行 中 输入 : 


$ python setup.py install 


一 切 OK T. 


A.12 PySQLite 


PySQLite 是 一 个 为 Python 绑 定 的 SQLite, SQLite 是 一 个 基于 磁盘 的 轻 量 级 数据 
库 ， 可 以 使 用 SQL Ait, FFA APRA. wA 2.6.3, ILIA W 
wh, http://code.google.com/p/pysalite/ , 





从 http://code.google.com/p/pysqlite/downloads/list 下 载 文件 并 解压 到 一 个 文件 夹 ， 
从 命令 行 运行 : 


$ python setup.py install 


A.13 CherryPy 


CherryPy (http://www.cherrypy.org/) 是 一 个 快速 、 稳 定 、 轻 量 级 的 Web 服务 器 ， 
基于 Python 建立 ， 使 用 面向 对 象 模型 。CherryPy 易于 安装 ， 只 需 从 http://www. 
cherrypy.org/wiki/CherryPyInstall 下 载 最 新 版 本 ， 最 新 的 稳定 版 本 是 3.2.0。 解 压 并 
运行 : 


$ python setup.py install 








安装 后 ， 在 cherrypy/tutorial 文件 夹 查 看 CherryPy 简单 的 示例 教程 。 这 些 例 子 会 告 
诉 你 如 何 传递 GET / POST 变量 ,继承 页 面 特 性 ， 上 传 和 下 载 文件 等 。 
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MY SK B 


图 像 集 





B.1 Flickr 


广 受 欢迎 的 照片 分 享 网 站 Flickr (http://flickr.com/) 是 计算 机 视觉 研究 者 和 爱好 者 
的 金 矿 。 这 是 一 个 很 好 的 资源 ， 包 含 数 以 亿 计 的 图 像 ， 其 中 许多 有 用 户 做 了 标记 ， 
可 以 用 来 获得 训练 数据 或 用 真实 的 数据 进行 实验 。Flickr 有 一 个 API 接口 服务 ， 使 
其 可 以 上 传 、 下 载 和 注释 图 像 (以 及 更 多 功能 )。 对 API 完整 的 描述 参见 http:// 
flickr.com/services/api/， 其 中 还 包含 许多 编程 语言 的 配套 组 件 ， 包 括 Python, 





让 我 们 看 看 如 何 使 用 名 为 flickrpy 的 库 ， 参 见 http://code.google.com/p/flickrpy/。 下 
载 文件 flickr.py。 你 需要 从 Flickr 获得 一 个 API 密 钥 使 其 正常 工作 ， 这 些 窗 钥 对 于 
非 商业 用 途 是 免费 ， 对 于 商业 用 途 则 另 有 要 求 。 点 击 Flickr API 页 面 的 链接 “Apply 
for a new API Key” (申请 新 API 密 钥 ) ， 然 后 按 指示 进行 。 获 得 API 密 钥 后 ， 打 开 
flickr.py， 用 密 钥 奉 换 下 面 的 空 字符 串 : 


API KNEE 
结 朱 如 下 : 
API_KEY = '123fbbb81441231123cgg5b123d92123 ' 


LEAR Gt — 7 al a Sp OB, FR TARRA FERMER. WILA TRE 
到 一 个 名 为 tagdownload.py 的 文件 中 : 
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iimport flickr 
import urllib, urlparse 
import os 
import sys 
if len(sys.argv)>1: 
tag = sys.arev[1] 
else: 
print ‘no tag specified’ 


# 下 载 图 像 数据 
f = flickr.photos search(tags=tag) 
urllist = [] # 用 于 存储 下 载 了 什么 的 列表 





# 下 载 图 像 

人 
url = k.getURL(size='Medium', urlType='source' ) 
urllist.append(ur1l) 
image = urllib.URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url).path) ) 
print ‘downloading:', url 


如 采 你 想 将 URL 列表 写 入 一 个 文本 文件 ， 可 以 在 末尾 添加 下 面 的 代码 : 


# 将 url 的 列表 写 入 文件 

fl = open('urllist.txt’, W) 

for url in urllist: 
fl.write(url+'\n') 

fl.close() 


在 命令 行 输入 : 
$ python tagdownload.py goldengatebridge 


你 会 得 到 100 幅 标 记 为 “goldengatebridge” 的 最 新 图 像 。 可 以 看 到 ， 我 们 选择 了 获 
取 “ 中 等 ”尺寸 的 图 像 。 如 果 你 想得到 缩 略 图 、 原 尺寸 的 图 像 或 其 他 图 像 ， 这 里 有 
许多 其 他 尺寸 供 选 择 ， 说明 文档 参见 Flickr 网 站 http://flickr.com/api/. 





这 里 我 们 只 对 下 载 图 像 怀 兴趣 ， 需要 映 份 验证 的 API 调用 过 程 略 做 复杂 。 奉 看 API 
文档 了 解 更 多 的 关于 设置 身份 验证 会 话 的 信息 。 


B.2 Panoramio 


谷歌 照片 分 享 服务 Panoramio (http://www.panoramio.com/) 是 一 个 获取 地 理 标 记 
图 像 的 好 地 方 。 该 Web 服务 提供 API 以 编程 方式 访问 内 容 。API 的 描述 参见 http:// 
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www.panoramio.com/api/。 你 可 以 得 到 网 站 小 部 件 并 使 用 JavaScript 对 象 访 问 数据 。 
要 从 该 网 站 上 下 载 图 片 ， 最 简单 的 方法 是 调用 GET， 例 如 : 


http://www.panoramio.com/map/get panoramas.php?order=popularity&set=public& 
from=0&to=20&minx=-180&miny=-90&maxx=180&maxy=90&size=mediu 


minx, miny, maxx 和 maxy 定义 选择 照片 的 地 理 区 域 (分 别 表 示 最 小 经 度 、 最 小 纬 
度 、 最 大 经 度 和 最 大 纬度 )。 啊 应 将 用 ISON 格式 表示 ， 显 示 如 下 : 


count :S12 “photos” : 

[{"upload date": "02 February 2006", "owner name": "***", "photo id": 9439, 
“Longitude s:.-151575;. "height": 375,. width se: 500, “photo title’: Thren, 

"latitude": -16.5, “owner url": “http://www.panoramio.com/user/1600", "owner id": 1600, 
"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/9439. jpg", 

"photo url": "http://www. panoramio.com/photo/9439"}, 

{upload date": "18 January 2011",. “owner name"; "***", "photo id": 46752123, 
‘Longitude’: 120.252718600000003,." height” = 370, "width": 500, “photo: Cirer a eren 
"Latitude": 23.327833999999999, "owner url": "http://www. panoramio.com/user/2780232", 
"owner id": 2780232, 

"photo file url": “http://mw2.google.com/mw-panoramio/photos/medium/46752123. jpg", 
"photo url": "http://www. panoramio.com/photo/46752123"}, 

{"upload date": "20 January 2011", "owner_name": "***", "photo_id": 46817885, 
"longitude": -178.13709299999999, "height": 330, "width": 500, "photo title": "***", 
"latitude": -14.310613, "owner url": "http://www. panoramio.com/user/919358", 

"owner id": 919358, 

"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/46817885.jpg", 
"photo url": "http://www.panoramio.com/photo/46817885"}, 


le “has mõre r. true} 


使 用 JSON 包 , 你 可 以 获得 photo file url 字段 的 结果 ， 见 2.3 市 中 的 例子 。 


B.3 牛津 大 学 视觉 几何 组 
牛津 大 学 视觉 几何 研究 组 在 http://www.robots.ox.ac.uk/~vgg/data/ 上 公布 有 很 多 的 
数据 集 。 在 本 书 中 ， 我 们 使 用 了 一 些 多 视图 的 数据 集 ， 例 如 “Merton1 、 “Model 


House”、“dinosaur” 和 “corridor” 序 列 ， 这 些 数 据 ( 某 些 包括 摄像 机 和 矩阵 和 点 跟 
be) 下 载 地 址 为 http://www.robots.ox.ac.uk/~vgg/data/data-mview.html。 


B.4 肯塔基 大 学 识别 基准 图 像 


肯塔基 大 学 基准 图 像 集 ， 亦 称 “ukbench” 集 ， 是 一 个 包含 25$0 组 图 片 的 图 像 集 
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该 数据 集中 ， 每 组 图 像 共 4 幅 ， 包 仿 同 一 对 象 或 同一 场景 下 的 不 同 视角 。 这 是 一 个 
测试 目标 识别 和 图 像 检 索 算 法 一 个 很 好 的 图 像 集 。 数 据 集 可 以 在 http://www.vis.uky. 
edu/~stewe/ukbench/ 下 载 (全 套 约 1.5 GB), ， 详 见 文献 [23]。 


在 本 书 中 ， 我 们 使 用 一 个 较 小 的 子 集 ， 只 含有 前 1000 幅 图 片 。 
B.5 其 他 


B.5.1 Prague Texture Segmentation Datagenerator 与 基准 
该 数据 集 在 分 割 那 一 草 里 面 用 到 过 ， 可 以 生成 许多 不 同类 型 的 纹理 分 割 图 像 ， 参 见 


http://mosaic.utia.cas.cz/index.php, 








B.5.2 ”微软 剑桥 研究 院 Grab Cut 数 据 集 

最 初 用 于 Grab Cu 的 论文 [27]， 该 图 像 集 提供 带 有 用 户 注 释 的 分 割 图 像 。 该 数 
据 集 和 一 些 论 文 参 见 http://research.microsoft.com/en-us/um/cambridge/projects/ 
visionimagevideoediting/segmentation/grabcut.html。 数 据 集 中 的 原始 图 像 现在 是 伯 克 
FI a HI Ar JE E (http://www.eecs.berkeley.edu/Research/Projects/CS/vision/ grouping/ 
segbench/) 中 的 一 部 分 。 


B.5.3 Caltech 101 


这 是 一 个 经 典 的 数据 集 ， 其 中 包含 101 类 照片 ， 可 以 用 来 测试 目标 识别 算法 ， 参 见 
http://www.vision.caltech.edu/Image_Datasets/Caltech101/, 


B.5.4 静态 手势 数据 库 


这 个 来 目 Sebastien Marcel 的 数据 集 与 其 他 几 个 手势 数据 集 可 在 http://www.idiap.ch/ 


resource/gestures/ 下 载 。 


B.5.5 Middlebury Stereo 数 据 集 


这 些 数 据 集 用 于 基准 立体 算法 ， 可 在 http://vision.middlebury.edu/stereo/data/ 人 下载。 
每 个 立体 像 对 都 带 有 真实 深度 图 像 来 方便 比较 结果 。 
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MY SR C 


图 片 来 源 





在 本 书 中 ， 我 们 从 Web 服务 充分 享用 了 公开 可 用 的 数据 和 图 像 ， 详 见 附 孙 B。 非 党 
感谢 这 些 数 据 集 背后 研究 人 员 的 贡献 。 


一 些 反 复出 现 的 图 像 例子 属于 作者 自己 。 你 可 以 在 创作 共用 署名 3.0 许 可 证 (CC 
3.0，http://creativecommons.org/licenses/by/3.0/) 下 免费 使 用 这 些 图 片 ， 如 引用 本 
Ds 

这 些 图 片 是 : 


。 用 于 本 书 几 乎 所 有 例子 的 帝国 大 厦 图 像 ; 

。 在 图 1-7 中 的 低 对 比 度 图 像 ，; 

。 用 于 图 2-2、 图 2-5、 图 2-6 和 图 2-7 的 特征 匹配 例子 ; 

。 用 于 图 9-6、 图 10-1 和 图 10-2 的 渔 人 码头 标志 ; 

。 用 于 图 6-4 和 图 9-6 的 山顶 小 男孩 ; 

。 在 图 4-3 中 用 于 校准 的 书 的 图 像 ; 

。 用 于 图 4-4、 图 4-5 和 图 4-6 中 的 O'Reilly 开源 书 的 两 幅 图 片 。 


C.1 来 自 Flickr 的 图 像 


我 们 在 创作 共同 署名 2.0 通用 许可 证 (CC2.0) 使 用 了 一 些 来 自 Flickr 的 图 像 (http:// 
creativecommons.org/licenses/by/2.0/deed.en) 下 ， 非 党 感谢 那些 摄影 师 的 贡献 。 


RA Flickr 的 图 像 〈 例 子 中 使 用 的 名 称 ， 不 是 原始 文件 名 ) : 
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e billboard_for_rent.jpg, X Á @striatic, http://flickr.com/photos/striatic/21671910/, 
用 于 图 3-2; 

e blank_billboard.jpg， 来 H @mediaboytodd, http://flickr.com/photos/23883605 @ 
N06/2317982570/， 用 于 图 3-3; 

e beatles.jpg， 来 目 @oddsock，http://flickr.com/photos/oddsock/82535061/， 用 于 图 
3-2 和 图 3-3; 

e turningtorsol.jpg， 来 目 @rutgerblom, http://www.flickr.com/photos/rutgerblom/ 
2873185336/， 用 于 图 3-5; 

e Sunset_tree.jpg， 来 目 @jpck，http:Wwww.flickr.com/photos/jpck/334492938S/， 用 
于 图 3-5. 


C.2 ”其 他 图 像 


。 用 于 图 3-6、 图 3-7 和 图 3-8 的 人 脸 图 像 是 由 J. K. Keller 提供 的 。 有 眼睛 和 嘴巴 的 
注释 是 作者 加 的 。 

。 用 于 图 3-9、 图 3-11 和 图 3-12 的 隆 德 大 学 建筑 图 片 来 自 隆 德 大 学 数学 成 像 组 的 
一 个 数据 集 。 摄 影 师 很 可 能 是 Magnus Oskarsson, 

。 用 于 图 4-6 的 玩具 飞机 三 维 模型 来 自 Gilles Tran (署名 创作 共同 许可 证 )。 

。 用 于 图 5-7 和 图 5-8 的 恶魔 图 像 由 Carl Olsson 提供 。 

。 用 于 图 1-8 .图 6-2 .图 6-3 .图 6-7 和 图 6-8 的 字体 数据 集 由 马丁 Martin Solli 提供 。 

。 用 于 图 8-6、 图 8-7 和 图 8-8 的 数 独 图 像 由 Martin Byrod 提供 。 


C.3 插图 


本 书 图 5-1 中 对 极 几 何 的 解释 来 目 Klas Josephson 的 图 解 ， 并 在 本 书 中 稍 作 了 修改 。 
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